Python 2.6:如何排除包含某个子串的文件名?

Python 2.6: how to exclude filenames that contain a certain substring?

我在 /some/dir 中有 3 个文件:

$ ls /some/dir
fiot_csv2apex_nomuratest.xml  fiot_csv2apex_nomurauat.xml  fiot_csv2apex_nomura.xml

我希望我的脚本只提取文件名中不包含子字符串 "uat""test" 的文件。

为了简单起见,我只是想排除 "uat" 子字符串,但我的尝试失败了。

这是不尝试排除这 3 个文件中任何一个的完整脚本:

#!/usr/bin/env python

import xml.etree.ElementTree as ET, sys, os, re, fnmatch

param = sys.argv[1]
client = param.split('_')[0]
market = param.split('_')[1]
suffix = param.split('_')[2]

toapex_pattern = market + '*2apex*' + client + '*' + '.xml'

files_dir = '/some/dir'
config_files = os.listdir(files_dir)

for f in config_files:
    if fnmatch.fnmatch(f, toapex_pattern):
            print(f)

以上脚本将按预期输出 /some/dir 中的所有 3 个文件。脚本是这样的 运行:

python /test/scripts/regex.py nomura_fiot_b

我试图通过像这样修改 toapex_pattern 变量来排除 "uat"

toapex_pattern = market + '*2apex*' + client + '(?!uat)' + '*' + '.xml':

然而,此后脚本没有产生任何输出。

我也试过这个:

toapex_pattern = re.compile(market + '*2apex*' + client + '(?!uat)' + '*' + '.xml')

但这导致了类型错误:

TypeError: object of type '_sre.SRE_Pattern' has no len()

如果我试试这个:

toapex_pattern = market + '*2apex*' + client + '[^uat]' + '*' + '.xml'

输出是:

fiot_csv2apex_nomuratest.xml
fiot_csv2apex_nomurauat.xml

期望的输出是:

fiot_csv2apex_nomura.xml

我应该如何修改 toapex_pattern 变量以获得所需的输出?

一个 fnmatch 模式 is not a regular expression(?!...) 之类的东西将不起作用。

通常,独占模式不适用于 fnmatch。你可以像这样

[!u][!a][!t]

匹配任何三个不是“uat”的字母...但这仍然意味着您隐式需要至少 3 个字母,并且您无法进一步控制哪些字母。

省去麻烦,使用 fnmatch 进入一般范围,然后使用第二步排除不需要的东西。

files_dir = '/some/dir'
config_files = os.listdir(files_dir)

for file_name in config_files:
    if fnmatch.fnmatch(file_name, toapex_pattern) and not "uat" in file_name:
        print(file_name)

或者,从一开始就使用正则表达式。

import re

files_dir = '/some/dir'
config_files = os.listdir(files_dir)

# ...

toapex_pattern = re.escape(market) + '.*2apex.*' + re.escape(client) + '(?!uat).*\.xml$':

for file_name in config_files:
    if re.match(toapex_pattern, file_name):
        print(file_name)

直接扔进去,就可以调用脚本python /test/scripts/regex.py nomura fiot b,直接使用sys.argv[1]sys.argv[2]sys.argv[3],不用自己先拆分。