标记嵌套表达式但忽略带空格的引号字符串
Tokenize nested expression but ignore quoted string with spaces
我希望打印出以下字符串
r"file='//usr/env/0/test/0', name='test', msg=Test.Msg(type=String, bytes_=Bytes(value=b\" 0\x80\x00\x00y\x17\`\"))"
至
file='//usr/env/0/test/0',
name='test',
msg=Test.Msg(
type=String,
bytes=Bytes(
value=b\" 0\x80\x00\x00y\x17\`\""
)
)
首先,我尝试使用 pyparsing 来标记输入
from pyparsing import *
content = r"(file='//usr/env/0/test/0', name='test', msg=Test.Msg(type=String, bytes_=Bytes(value=b\" 0\x80\x00\x00y\x17\`\")))"
expr = nestedExpr( '(', ')', ignoreExpr=None)
result = expr.parseString(content)
result.pprint()
这给了我一个嵌套列表,但字节数组在空白处被拆分
[["file='//usr/env/0/test/0',",
"name='test',",
'msg=Test.Msg',
['type=String,',
'bytes_=Bytes',
['value=b\"', '0\x80\x00\x00y\x17\`\"']]]]
有人知道我如何用逗号分隔 return 以下内容吗?
[["file='//usr/env/0/test/0',",
"name='test',",
'msg=Test.Msg',
['type=String,',
'bytes_=Bytes',
['value=b\" 0\x80\x00\x00y\x17\`\"']]]]
为了获得预期的结果,我们需要为嵌套表达式的内容定义一个内容表达式。默认内容是任何带引号的字符串或 space 分隔的单词。但我认为你的内容更像是一个逗号分隔的列表。
Pyparsing 在 pyparsing_common 中定义了一个 comma_separated_list 表达式,但它在这里不起作用,因为它不理解嵌套表达式的 ()
不应该是一部分逗号分隔列表中的项目。所以我们要写一个稍微修改的版本:
from pyparsing import *
content = r"""(file='//usr/env/0/test/0', name='test', msg=Test.Msg(type=String, bytes_=Bytes(value=b" 0\x80\x00\x00y\x17\`")))"""
# slightly modified comma_separated_list from pyparsing_common
commasepitem = (
Combine(
OneOrMore(
~Literal(",")
+ Word(printables, excludeChars="(),")
+ Optional(White(" ") + ~FollowedBy(oneOf(", ( )")))
)
)
)
comma_separated_list = delimitedList(quotedString() | commasepitem)
expr = nestedExpr( '(', ')', content=comma_separated_list)
result = expr.parseString(content)
result.pprint(width=60)
print(result.asList() ==
[["file='//usr/env/0/test/0'",
"name='test'",
'msg=Test.Msg',
['type=String',
'bytes_=Bytes',
['value=b" 0\x80\x00\x00y\x17\`"']]]])
打印:
[["file='//usr/env/0/test/0'",
"name='test'",
'msg=Test.Msg',
['type=String',
'bytes_=Bytes',
['value=b" 0\x80\x00\x00y\x17\`"']]]]
True
我希望打印出以下字符串
r"file='//usr/env/0/test/0', name='test', msg=Test.Msg(type=String, bytes_=Bytes(value=b\" 0\x80\x00\x00y\x17\`\"))"
至
file='//usr/env/0/test/0',
name='test',
msg=Test.Msg(
type=String,
bytes=Bytes(
value=b\" 0\x80\x00\x00y\x17\`\""
)
)
首先,我尝试使用 pyparsing 来标记输入
from pyparsing import *
content = r"(file='//usr/env/0/test/0', name='test', msg=Test.Msg(type=String, bytes_=Bytes(value=b\" 0\x80\x00\x00y\x17\`\")))"
expr = nestedExpr( '(', ')', ignoreExpr=None)
result = expr.parseString(content)
result.pprint()
这给了我一个嵌套列表,但字节数组在空白处被拆分
[["file='//usr/env/0/test/0',",
"name='test',",
'msg=Test.Msg',
['type=String,',
'bytes_=Bytes',
['value=b\"', '0\x80\x00\x00y\x17\`\"']]]]
有人知道我如何用逗号分隔 return 以下内容吗?
[["file='//usr/env/0/test/0',",
"name='test',",
'msg=Test.Msg',
['type=String,',
'bytes_=Bytes',
['value=b\" 0\x80\x00\x00y\x17\`\"']]]]
为了获得预期的结果,我们需要为嵌套表达式的内容定义一个内容表达式。默认内容是任何带引号的字符串或 space 分隔的单词。但我认为你的内容更像是一个逗号分隔的列表。
Pyparsing 在 pyparsing_common 中定义了一个 comma_separated_list 表达式,但它在这里不起作用,因为它不理解嵌套表达式的 ()
不应该是一部分逗号分隔列表中的项目。所以我们要写一个稍微修改的版本:
from pyparsing import *
content = r"""(file='//usr/env/0/test/0', name='test', msg=Test.Msg(type=String, bytes_=Bytes(value=b" 0\x80\x00\x00y\x17\`")))"""
# slightly modified comma_separated_list from pyparsing_common
commasepitem = (
Combine(
OneOrMore(
~Literal(",")
+ Word(printables, excludeChars="(),")
+ Optional(White(" ") + ~FollowedBy(oneOf(", ( )")))
)
)
)
comma_separated_list = delimitedList(quotedString() | commasepitem)
expr = nestedExpr( '(', ')', content=comma_separated_list)
result = expr.parseString(content)
result.pprint(width=60)
print(result.asList() ==
[["file='//usr/env/0/test/0'",
"name='test'",
'msg=Test.Msg',
['type=String',
'bytes_=Bytes',
['value=b" 0\x80\x00\x00y\x17\`"']]]])
打印:
[["file='//usr/env/0/test/0'",
"name='test'",
'msg=Test.Msg',
['type=String',
'bytes_=Bytes',
['value=b" 0\x80\x00\x00y\x17\`"']]]]
True