将字符串转换为有效的文件名?

python filenames slug sanitize

140194 观看

21回复

1920 作者的声誉

我有一个字符串,我想用作文件名,所以我想删除文件名中不允许使用Python的所有字符。

我宁愿比其他方面更严格,所以让我说我只想保留字母,数字和一小部分其他字符"_-.() "。什么是最优雅的解决方案?

文件名需要在多个操作系统(Windows,Linux和Mac OS)上有效 - 它是我的库中的MP3文件,歌曲标题为文件名,并在3台机器之间共享和备份。

作者: Sophie Gage 的来源 发布者: 2008 年 11 月 17 日

回应 (21)


96

208248 作者的声誉

如果对文件的格式或非法的有效字符组合(例如“..”)没有限制,这种白名单方法(即仅允许valid_chars中存在的字符)将起作用,例如,你说的是什么将允许一个名为“.txt”的文件名,我认为它在Windows上无效。由于这是最简单的方法,我尝试从valid_chars中删除空格并在出现错误时添加已知的有效字符串,任何其他方法都必须知道允许在何处处理Windows文件命名限制,因此更复杂。

>>> import string
>>> valid_chars = "-_.() %s%s" % (string.ascii_letters, string.digits)
>>> valid_chars
'-_.() abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789'
>>> filename = "This Is a (valid) - filename%$&$ .txt"
>>> ''.join(c for c in filename if c in valid_chars)
'This Is a (valid) - filename .txt'
作者: Vinko Vrsalovic 发布者: 17.11.2008 09:10

7

378 作者的声誉

您可以使用re.sub()方法替换不是“filelike”的任何内容。但实际上,每个角色都是有效的; 因此,没有预先构建的功能(我相信),以完成它。

import re

str = "File!name?.txt"
f = open(os.path.join("/tmp", re.sub('[^-a-zA-Z0-9_.() ]+', '', str))

会导致文件句柄为/tmp/filename.txt。

作者: gx. 发布者: 17.11.2008 09:10

88

9285 作者的声誉

将字符串用作文件名的原因是什么?如果人类可读性不是一个因素,我会使用base64模块,它可以生成文件系统安全字符串。它不可读,但你不必处理碰撞,它是可逆的。

import base64
file_name_string = base64.urlsafe_b64encode(your_string)

更新:根据马修评论更改。

作者: Igal Serban 发布者: 17.11.2008 09:12

93

0 作者的声誉

您可以将列表推导与字符串方法一起使用。

>>> s
'foo-bar#baz?qux@127/\\9]'
>>> "".join(x for x in s if x.isalnum())
'foobarbazqux1279'
作者: lutz 发布者: 17.11.2008 09:12

36

91933 作者的声誉

只是为了使事情进一步复杂化,您不能保证仅通过删除无效字符就能获得有效的文件名。由于允许的字符在不同的文件名上有所不同,因此保守的方法最终可能会将有效名称转换为无效的名称。您可能希望为以下情况添加特殊处理:

  • 该字符串是所有无效字符(留下空字符串)

  • 你最终会得到一个具有特殊含义的字符串,例如“。” 要么 ”..”

  • 在Windows上,保留某些设备名称。例如,您无法创建名为“nul”,“nul.txt”(或实际上为nul.anything)的文件。保留名称为:

    CON,PRN,AUX,NUL,COM1,COM2,COM3,COM4,COM5,COM6,COM7,COM8,COM9,LPT1,LPT2,LPT3,LPT4,LPT5,LPT6,LPT7,LPT8和LPT9

您可以解决这些问题,方法是将一些字符串添加到永远不会导致其中一种情况的文件名,并删除无效字符。

作者: Brian 发布者: 17.11.2008 09:57

7

276117 作者的声誉

>>> import string
>>> safechars = bytearray(('_-.()' + string.digits + string.ascii_letters).encode())
>>> allchars = bytearray(range(0x100))
>>> deletechars = bytearray(set(allchars) - set(safechars))
>>> filename = u'#ab\xa0c.$%.txt'
>>> safe_filename = filename.encode('ascii', 'ignore').translate(None, deletechars).decode()
>>> safe_filename
'abc..txt'

它不处理空字符串,特殊文件名('nul','con'等)。

作者: jfs 发布者: 17.11.2008 10:15

13

50595 作者的声誉

请记住,除了Unix系统之外,文件名实际上没有限制

  • 它可能不包含\ 0
  • 它可能不包含/

其他一切都是公平的游戏。

$ touch“
>甚至多线
>哈哈
> ^ [[31m red ^ [[0m
>邪恶“
$ ls -la 
-rw-r  -  r-- 0月17日23:39?甚至多线?哈哈?[31米红色?[0m?邪恶]
$ ls -lab
-rw-r  -  r-- 0 Nov 17 23:39 \ neven \ multiline \ nhaha \ n \ 033 [31m \ red \ \ 033 [0m \ nevil
$ perl -e'为我的$ i(glob(q {./* even *})){print $ i; }'
./
甚至多线
哈哈
 红色 
邪恶

是的,我只是将ANSI颜色代码存储在文件名中并让它们生效。

为娱乐,请将BEL字符放在目录名称中,并观看CD刻录后的乐趣;)

作者: Kent Fredric 发布者: 17.11.2008 10:45

6

24609 作者的声誉

为什么不用try / except包装“osopen”并让底层操作系统判断文件是否有效?

这似乎更少的工作,无论您使用哪种操作系统,它都是有效的。

作者: James Anderson 发布者: 17.11.2008 11:24

137

323673 作者的声誉

您可以查看Django框架,了解它们如何从任意文本创建“slug”。slug是URL和文件名友好的。

他们template/defaultfilters.py(在第183行附近)定义了一个函数slugify,这可能是这种事情的黄金标准。基本上,他们的代码如下。

def slugify(value):
    """
    Normalizes string, converts to lowercase, removes non-alpha characters,
    and converts spaces to hyphens.
    """
    import unicodedata
    value = unicodedata.normalize('NFKD', value).encode('ascii', 'ignore')
    value = unicode(re.sub('[^\w\s-]', '', value).strip().lower())
    value = unicode(re.sub('[-\s]+', '-', value))

还有更多,但是我把它排除在外,因为它没有解决挫折问题,而是逃避了。

作者: S.Lott 发布者: 17.11.2008 12:23

5

450962 作者的声誉

其他评论尚未解决的另一个问题是空字符串,这显然不是有效的文件名。您也可以通过剥离太多字符来结束空字符串。

对于Windows保留的文件名和点的问题,对于“我如何从任意用户输入中规范化有效文件名?”这一问题最安全的答案是“甚至不打扰试试”:如果你能找到任何其他避免的方法它(例如,使用数据库中的整数主键作为文件名),这样做。

如果你必须,你真的需要允许空格和'。' 要将文件扩展名作为名称的一部分,请尝试以下方法:

import re
badchars= re.compile(r'[^A-Za-z0-9_. ]+|^\.|\.$|^ | $|^$')
badnames= re.compile(r'(aux|com[1-9]|con|lpt[1-9]|prn)(\.|$)')

def makeName(s):
    name= badchars.sub('_', s)
    if badnames.match(name):
        name= '_'+name
    return name

即使这样也无法保证,特别是在意外的操作系统上 - 例如RISC OS讨厌空间和使用'。' 作为目录分隔符。

作者: bobince 发布者: 17.11.2008 01:24

6

5965 作者的声誉

虽然你必须要小心。如果您只关注拉丁语言,那么在您的介绍中并没有明确说明。如果您仅使用ascii字符清理它们,某些单词可能会变得毫无意义或其他意义。

想象你有“forêtpoésie”(森林诗歌),你的消毒可能会给“堡垒”(强烈+无意义的东西)

如果你不得不处理汉字,那就更糟了。

“下北沢”你的系统可能最终会做“---”,注定会在一段时间后失败并且不是很有帮助。因此,如果您只处理文件,我会鼓励将它们称为您控制的通用链或保持字符不变。对于URI,大致相同。

作者: karlcow 发布者: 11.03.2009 10:44

18

1920 作者的声誉

决定

这是我最终使用的解决方案:

import unicodedata

validFilenameChars = "-_.() %s%s" % (string.ascii_letters, string.digits)

def removeDisallowedFilenameChars(filename):
    cleanedFilename = unicodedata.normalize('NFKD', filename).encode('ASCII', 'ignore')
    return ''.join(c for c in cleanedFilename if c in validFilenameChars)

unicodedata.normalize调用用非重音等效替换重音字符,这比简单地剥离它们要好。之后,所有不允许的字符都被删除。

我的解决方案没有预先添加已知的字符串以避免可能的不允许的文件名,因为我知道在给定我的特定文件名格式时它们不会发生。更通用的解决方案需要这样做。

作者: Sophie Gage 发布者: 30.03.2009 07:40

0

4126 作者的声誉

UPDATE

在这个6岁的答案中,所有链接都无法修复。

此外,我也不会这样做,只是base64编码或删除不安全的字符。Python 3示例:

import re
t = re.compile("[a-zA-Z0-9.,_-]")
unsafe = "abc∂éåß®∆˚˙©¬ñ√ƒµ©∆∫ø"
safe = [ch for ch in unsafe if t.match(ch)]
# => 'abc'

有了base64你可以编码和解码,这样你就可以重新找回原来的文件名。

但根据用例,您可能最好生成随机文件名并将元数据存储在单独的文件或数据库中。

from random import choice
from string import ascii_lowercase, ascii_uppercase, digits
allowed_chr = ascii_lowercase + ascii_uppercase + digits

safe = ''.join([choice(allowed_chr) for _ in range(16)])
# => 'CYQ4JDKE9JfcRzAZ'

原始的LINKROTTEN答案

bobcat项目包含一个python模块,它就是这样做的。

它并不完全健壮,请看这篇文章和这个回复

因此,如上所述:base64如果可读性无关紧要,编码可能是一个更好的主意。

作者: wires 发布者: 10.07.2009 10:19

0

9120 作者的声誉

我确定这不是一个很好的答案,因为它修改了它循环的字符串,但似乎工作正常:

import string
for chr in your_string:
 if chr == ' ':
   your_string = your_string.replace(' ', '_')
 elif chr not in string.ascii_letters or chr not in string.digits:
    your_string = your_string.replace(chr, '')
作者: TankorSmash 发布者: 05.05.2012 03:56

2

9801 作者的声誉

大多数这些解决方案都不起作用。

'/ hello / world' - >'helloworld'

'/ helloworld'/ - >'helloworld'

这通常不是你想要的,比如你要为每个链接保存html,你要覆盖不同网页的html。

我腌制了一个如:

{'helloworld': 
    (
    {'/hello/world': 'helloworld', '/helloworld/': 'helloworld1'},
    2)
    }

2表示应附加到下一个文件名的数字。

我每次从字典中查找文件名。如果它不存在,我创建一个新的,如果需要附加最大数量。

作者: robert king 发布者: 16.05.2012 01:04

1

221 作者的声誉

不完全是OP所要求的,但这是我使用的,因为我需要独特和可逆的转换:

# p3 code
def safePath (url):
    return ''.join(map(lambda ch: chr(ch) if ch in safePath.chars else '%%%02x' % ch, url.encode('utf-8')))
safePath.chars = set(map(lambda x: ord(x), '0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz+-_ .'))

结果“有点”可读,至少从系统管理员的角度来看。

作者: makeroo 发布者: 12.09.2014 12:19

22

2716 作者的声誉

Github上有一个名为python-slugify的好项目:

安装:

pip install python-slugify

然后使用:

>>> from slugify import slugify
>>> txt = "This\ is/ a%#$ test ---"
>>> slugify(txt)
'this-is-a-test'
作者: Shoham 发布者: 29.04.2015 11:19

8

357 作者的声誉

在一行中:

valid_file_name = re.sub('[^\w_.)( -]', '', any_string)

你也可以加上'_'字符使其更具可读性(例如,如果更换斜杠)

作者: mnach 发布者: 04.08.2016 11:29

2

2937 作者的声誉

我喜欢这里的python-slugify方法,但它也剥离了点,这是不希望的。所以我优化了它以这种方式将干净的文件名上传到s3:

pip install python-slugify

示例代码:

s = 'Very / Unsafe / file\nname hähä \n\r .txt'
clean_basename = slugify(os.path.splitext(s)[0])
clean_extension = slugify(os.path.splitext(s)[1][1:])
if clean_extension:
    clean_filename = '{}.{}'.format(clean_basename, clean_extension)
elif clean_basename:
    clean_filename = clean_basename
else:
    clean_filename = 'none' # only unclean characters

输出:

>>> clean_filename
'very-unsafe-file-name-haha.txt'

这是故障安全的,它适用于没有扩展名的文件名,它甚至适用于不安全的字符文件名(结果在none这里)。

作者: therealmarv 发布者: 05.10.2017 04:36

16

1482 作者的声誉

就像S.Lott回答的那样,你可以看一下Django Framework如何将字符串转换为有效的文件名。

最新和更新的版本可以在utils / text.py中找到,并定义“get_valid_filename”,如下所示:

def get_valid_filename(s):
    s = str(s).strip().replace(' ', '_')
    return re.sub(r'(?u)[^-\w.]', '', s)

(见https://github.com/django/django/blob/master/django/utils/text.py

作者: cowlinator 发布者: 18.10.2017 12:24

0

1210 作者的声誉

我意识到有很多答案,但它们主要依赖于正则表达式或外部模块,所以我想提出自己的答案。纯python函数,不需要外部模块,不使用正则表达式。我的方法不是清除无效字符,而是仅允许有效字符。

def normalizefilename(fn):
    validchars = "-_.() "
    out = ""
    for c in fn:
      if str.isalpha(c) or str.isdigit(c) or (c in validchars):
        out += c
      else:
        out += "_"
    return out    

如果您愿意,可以validchars在开头添加自己的有效字符到变量,例如英文字母不存在的国家字母。这可能是您可能想要或不想要的:某些不在UTF-8上运行的文件系统可能仍然存在非ASCII字符问题。

此函数用于测试单个文件名的有效性,因此它将使用_替换路径分隔符,将其视为无效字符。如果要添加它,则修改ifto include os路径分隔符是微不足道的。

作者: Tuncay Göncüoğlu 发布者: 11.03.2019 12:21
32x32