Python 2.7 - 将 Unicode 字典与 Unicode 列表相交
Python 2.7 - Intersect Unicode Dictionary with Unicode List
我正在尝试使用集合和相交方法来查找文件路径的 unicode 列表中的哪些元素具有特定字符。目标是用其他字符替换这些字符,所以我制作了一个键和值的字典,其中键是将被替换的内容,值是将被替换的内容。但是,当我尝试用要替换的字符生成一组路径的交集时,它会生成一个空集。我究竟做错了什么?我有这个与 for 循环一起工作,但我想让它尽可能高效。感谢反馈!
代码:
# -*- coding: utf-8 -*-
import os
def GetFilepaths(directory):
"""
This function will generate all file names a directory tree using os.walk.
It returns a list of file paths.
"""
file_paths = []
for root, directories, files in os.walk(directory):
for filename in files:
filepath = os.path.join(root, filename)
file_paths.append(filepath)
return file_paths
# dictionary of umlauts (key) and their replacements (value)
umlautDictionary = {u'Ä': 'Ae',
u'Ö': 'Oe',
u'Ü': 'Ue',
u'ä': 'ae',
u'ö': 'oe',
u'ü': 'ue'
}
# get file paths in root directory and subfolders
filePathsList = GetFilepaths(u'C:\Scripts\Replace Characters\Umlauts')
print set(filePathsList).intersection(umlautDictionary)
filePathsList 是一个字符串列表:
[u'file1Ä.txt', u'file2Ä.txt', ...]
umlautDictionary 被用作键序列:
{u'Ä':..., ...}
交集为空,因为字符串 u'Ä' 未出现在您的字符串列表中。您正在比较 u'Ä' 与 u'file1Ä.txt',它们不相等。设置交集不会检查子字符串。
既然你想用你想要的字符替换文件名中的unicode字符,我建议采用以下方法:
umlautDictionary = {u'\xc4': u'Ae'}
filePathsList = [u'file1Ä.txt', u'file2Ä.txt']
words = [w.replace(key, value) for key, value in umlautDictionary.iteritems() for w in filePathsList]
输出:
[u'file1Ae.txt', u'file2Ae.txt']
您必须以 u'\xc4'
的形式存储 unicode 字符,以便 u'Ä'
等等。
我正在尝试使用集合和相交方法来查找文件路径的 unicode 列表中的哪些元素具有特定字符。目标是用其他字符替换这些字符,所以我制作了一个键和值的字典,其中键是将被替换的内容,值是将被替换的内容。但是,当我尝试用要替换的字符生成一组路径的交集时,它会生成一个空集。我究竟做错了什么?我有这个与 for 循环一起工作,但我想让它尽可能高效。感谢反馈!
代码:
# -*- coding: utf-8 -*-
import os
def GetFilepaths(directory):
"""
This function will generate all file names a directory tree using os.walk.
It returns a list of file paths.
"""
file_paths = []
for root, directories, files in os.walk(directory):
for filename in files:
filepath = os.path.join(root, filename)
file_paths.append(filepath)
return file_paths
# dictionary of umlauts (key) and their replacements (value)
umlautDictionary = {u'Ä': 'Ae',
u'Ö': 'Oe',
u'Ü': 'Ue',
u'ä': 'ae',
u'ö': 'oe',
u'ü': 'ue'
}
# get file paths in root directory and subfolders
filePathsList = GetFilepaths(u'C:\Scripts\Replace Characters\Umlauts')
print set(filePathsList).intersection(umlautDictionary)
filePathsList 是一个字符串列表:
[u'file1Ä.txt', u'file2Ä.txt', ...]
umlautDictionary 被用作键序列:
{u'Ä':..., ...}
交集为空,因为字符串 u'Ä' 未出现在您的字符串列表中。您正在比较 u'Ä' 与 u'file1Ä.txt',它们不相等。设置交集不会检查子字符串。
既然你想用你想要的字符替换文件名中的unicode字符,我建议采用以下方法:
umlautDictionary = {u'\xc4': u'Ae'}
filePathsList = [u'file1Ä.txt', u'file2Ä.txt']
words = [w.replace(key, value) for key, value in umlautDictionary.iteritems() for w in filePathsList]
输出:
[u'file1Ae.txt', u'file2Ae.txt']
您必须以 u'\xc4'
的形式存储 unicode 字符,以便 u'Ä'
等等。