Python 2.6:如何排除包含某个子串的文件名?
Python 2.6: how to exclude filenames that contain a certain substring?
我在 /some/dir
中有 3 个文件:
$ ls /some/dir
fiot_csv2apex_nomuratest.xml fiot_csv2apex_nomurauat.xml fiot_csv2apex_nomura.xml
我希望我的脚本只提取文件名中不包含子字符串 "uat"
或 "test"
的文件。
为了简单起见,我只是想排除 "uat"
子字符串,但我的尝试失败了。
这是不尝试排除这 3 个文件中任何一个的完整脚本:
#!/usr/bin/env python
import xml.etree.ElementTree as ET, sys, os, re, fnmatch
param = sys.argv[1]
client = param.split('_')[0]
market = param.split('_')[1]
suffix = param.split('_')[2]
toapex_pattern = market + '*2apex*' + client + '*' + '.xml'
files_dir = '/some/dir'
config_files = os.listdir(files_dir)
for f in config_files:
if fnmatch.fnmatch(f, toapex_pattern):
print(f)
以上脚本将按预期输出 /some/dir
中的所有 3 个文件。脚本是这样的 运行:
python /test/scripts/regex.py nomura_fiot_b
我试图通过像这样修改 toapex_pattern
变量来排除 "uat"
:
toapex_pattern = market + '*2apex*' + client + '(?!uat)' + '*' + '.xml':
然而,此后脚本没有产生任何输出。
我也试过这个:
toapex_pattern = re.compile(market + '*2apex*' + client + '(?!uat)' + '*' + '.xml')
但这导致了类型错误:
TypeError: object of type '_sre.SRE_Pattern' has no len()
如果我试试这个:
toapex_pattern = market + '*2apex*' + client + '[^uat]' + '*' + '.xml'
输出是:
fiot_csv2apex_nomuratest.xml
fiot_csv2apex_nomurauat.xml
期望的输出是:
fiot_csv2apex_nomura.xml
我应该如何修改 toapex_pattern
变量以获得所需的输出?
一个 fnmatch
模式 is not a regular expression。 (?!...)
之类的东西将不起作用。
通常,独占模式不适用于 fnmatch
。你可以像这样
[!u][!a][!t]
匹配任何三个不是“uat”的字母...但这仍然意味着您隐式需要至少 3 个字母,并且您无法进一步控制哪些字母。
省去麻烦,使用 fnmatch
进入一般范围,然后使用第二步排除不需要的东西。
files_dir = '/some/dir'
config_files = os.listdir(files_dir)
for file_name in config_files:
if fnmatch.fnmatch(file_name, toapex_pattern) and not "uat" in file_name:
print(file_name)
或者,从一开始就使用正则表达式。
import re
files_dir = '/some/dir'
config_files = os.listdir(files_dir)
# ...
toapex_pattern = re.escape(market) + '.*2apex.*' + re.escape(client) + '(?!uat).*\.xml$':
for file_name in config_files:
if re.match(toapex_pattern, file_name):
print(file_name)
直接扔进去,就可以调用脚本python /test/scripts/regex.py nomura fiot b
,直接使用sys.argv[1]
、sys.argv[2]
、sys.argv[3]
,不用自己先拆分。
我在 /some/dir
中有 3 个文件:
$ ls /some/dir
fiot_csv2apex_nomuratest.xml fiot_csv2apex_nomurauat.xml fiot_csv2apex_nomura.xml
我希望我的脚本只提取文件名中不包含子字符串 "uat"
或 "test"
的文件。
为了简单起见,我只是想排除 "uat"
子字符串,但我的尝试失败了。
这是不尝试排除这 3 个文件中任何一个的完整脚本:
#!/usr/bin/env python
import xml.etree.ElementTree as ET, sys, os, re, fnmatch
param = sys.argv[1]
client = param.split('_')[0]
market = param.split('_')[1]
suffix = param.split('_')[2]
toapex_pattern = market + '*2apex*' + client + '*' + '.xml'
files_dir = '/some/dir'
config_files = os.listdir(files_dir)
for f in config_files:
if fnmatch.fnmatch(f, toapex_pattern):
print(f)
以上脚本将按预期输出 /some/dir
中的所有 3 个文件。脚本是这样的 运行:
python /test/scripts/regex.py nomura_fiot_b
我试图通过像这样修改 toapex_pattern
变量来排除 "uat"
:
toapex_pattern = market + '*2apex*' + client + '(?!uat)' + '*' + '.xml':
然而,此后脚本没有产生任何输出。
我也试过这个:
toapex_pattern = re.compile(market + '*2apex*' + client + '(?!uat)' + '*' + '.xml')
但这导致了类型错误:
TypeError: object of type '_sre.SRE_Pattern' has no len()
如果我试试这个:
toapex_pattern = market + '*2apex*' + client + '[^uat]' + '*' + '.xml'
输出是:
fiot_csv2apex_nomuratest.xml
fiot_csv2apex_nomurauat.xml
期望的输出是:
fiot_csv2apex_nomura.xml
我应该如何修改 toapex_pattern
变量以获得所需的输出?
一个 fnmatch
模式 is not a regular expression。 (?!...)
之类的东西将不起作用。
通常,独占模式不适用于 fnmatch
。你可以像这样
[!u][!a][!t]
匹配任何三个不是“uat”的字母...但这仍然意味着您隐式需要至少 3 个字母,并且您无法进一步控制哪些字母。
省去麻烦,使用 fnmatch
进入一般范围,然后使用第二步排除不需要的东西。
files_dir = '/some/dir'
config_files = os.listdir(files_dir)
for file_name in config_files:
if fnmatch.fnmatch(file_name, toapex_pattern) and not "uat" in file_name:
print(file_name)
或者,从一开始就使用正则表达式。
import re
files_dir = '/some/dir'
config_files = os.listdir(files_dir)
# ...
toapex_pattern = re.escape(market) + '.*2apex.*' + re.escape(client) + '(?!uat).*\.xml$':
for file_name in config_files:
if re.match(toapex_pattern, file_name):
print(file_name)
直接扔进去,就可以调用脚本python /test/scripts/regex.py nomura fiot b
,直接使用sys.argv[1]
、sys.argv[2]
、sys.argv[3]
,不用自己先拆分。