shlex:在 Python 3 中转义引号

shlex: Escaping quotes in Python 3

我要拆分ascii文本

1 'K\^o, Suk\'e'

打印为 Python 字符串

line = "1 'K\^o, Suk\'e'\n"

进入

['1', 'K\^o, Suk\'e']

shlex.split(line) 不起作用,给出 ValueError("No closing quotation").

我尝试按如下方式添加到 wordchars

>>> lexer = shlex.shlex(line)
>>> lexer.wordchars += "\'"
>>> list(lexer)
['1', "'K\", '^', 'o', ',', "Suk\'e'"]

但这又不是我的本意。

没有引号,一切都按预期工作:

>>> line2= "1 'K\^o, Suk\e'\n"
>>> shlex.split(line2)
['1', 'K\^o, Suk\e']

如何解决这个问题?

编辑:我最接近的是:

>>> lexer = shlex.shlex(line)
>>> lexer.wordchars += "\'"
>>> lexer.wordchars += " "
>>> lexer.wordchars += "\^"
>>> lexer.wordchars += ","
>>> list(lexer)
['1', "'K\^o,", "Suk\'e'"]

还是不对。

编辑:示例字符串有些误导。它也应该能够分裂,比如说

>>> l1 = "C12 H2 'Hello friend'"

shlex 得到 l1 没问题。

使用正则表达式进行拆分可能更简单。这个将拆分为任何空格之前的第一个标记,然后是字符串的其余部分。

re.match('(\S+)\s+(.*)', line).groups()

您可以使用 posix 模式和 escapedquotes'" 而不仅仅是 "

>>> line = "1 'K\^o, Suk\'e'\n"
>>> lexer = shlex.shlex(line, posix=True)
>>> lexer.escapedquotes = "'\""
>>> list(lexer)
['1', "K\^o, Suk'e"]