如何在pyparsing中解析浮点数,包括减号
How to parse floats in pyparsing, including minus signs
所以我有以下字符串(每个字符串都是 .txt 文件的一行)并且我构建了一个解析器来解析第一行,如下所示:
line1: " N1 0.00000000 0.00000000 0.00000000 Type N Rank 4"
parser1 = Word(alphas + nums) + Word(printables + '.' + printables) + Word(printables + '.' + printables) \
+ Word(printables + '.' + printables) + Word(alphas) + Word(alphas) + Word(alphas) + Word(nums)
result = (['N1', '0.00000000', '0.00000000', '0.00000000', 'Type', 'N', 'Rank', '4'], {})
太棒了。然而,在这一行之后只是浮点数,可能有也可能没有减号,例如:
line2 = " -1.064533
-0.000007 -0.130782 0.044770
0.335373 -0.000007 -0.000006 -0.451296 0.378061
-0.000034 -0.990753 -1.404081 -0.000067 -0.000150
-0.096208 -0.714299
-0.017676 0.000019 0.000034 0.804011 0.911492
0.000019 0.000027 0.441683 0.107567"
我试过使用以下解析器来获取这些数字,但不幸的是它也会获取第 1 行:
parser2 = Word(printables + '.' + printables)
有没有一种解析浮点数的方法,它可能以更好的方式包含可打印的减号?
非常感谢(我是 pyparsing 的新手,所以请随心所欲)
Word(printables + '.' + printables)
并没有按照你的想法去做。 printables
是一个字符串,因此 printables + '.' + printables
的计算结果为 really 长字符串,其中包含所有可打印字符,后跟一个句点,再后跟所有可打印字符。这个字符串然后被用来构造一个 Word
对象,它将匹配一组 space 分隔的字符组,好吧,所有可打印字符(并且因为 '.' 是可打印的,然后它已经在那组中了)。
我 怀疑 你真正想要用来解析带有可选前导减号的实数的是
Optional('-') + Word(nums) + '.' + Word(nums)`
请注意,添加是通过解析表达式完成的,而不是传递给 Word 的字符串。这会将“-1.23”解析为 ['-', '1', '.', '23']
。要将所有这些作为单个字符串获取,请将其包装在 Combine 中:
Combine(Optional('-') + Word(nums) + '.' + Word(nums))
然后您将通过使用该表达式得到“-1.23”。之后仍然需要您使用 float()
内置函数将其转换为 Python 浮点数。
pyparsing_common.real
是一个预定义的浮点解析表达式,它将处理前导符号, 和 在解析时从字符串转换为浮点数,这样当你得到来自解析器的值,它已经转换为浮点数。
所以我有以下字符串(每个字符串都是 .txt 文件的一行)并且我构建了一个解析器来解析第一行,如下所示:
line1: " N1 0.00000000 0.00000000 0.00000000 Type N Rank 4"
parser1 = Word(alphas + nums) + Word(printables + '.' + printables) + Word(printables + '.' + printables) \
+ Word(printables + '.' + printables) + Word(alphas) + Word(alphas) + Word(alphas) + Word(nums)
result = (['N1', '0.00000000', '0.00000000', '0.00000000', 'Type', 'N', 'Rank', '4'], {})
太棒了。然而,在这一行之后只是浮点数,可能有也可能没有减号,例如:
line2 = " -1.064533
-0.000007 -0.130782 0.044770
0.335373 -0.000007 -0.000006 -0.451296 0.378061
-0.000034 -0.990753 -1.404081 -0.000067 -0.000150
-0.096208 -0.714299
-0.017676 0.000019 0.000034 0.804011 0.911492
0.000019 0.000027 0.441683 0.107567"
我试过使用以下解析器来获取这些数字,但不幸的是它也会获取第 1 行:
parser2 = Word(printables + '.' + printables)
有没有一种解析浮点数的方法,它可能以更好的方式包含可打印的减号?
非常感谢(我是 pyparsing 的新手,所以请随心所欲)
Word(printables + '.' + printables)
并没有按照你的想法去做。 printables
是一个字符串,因此 printables + '.' + printables
的计算结果为 really 长字符串,其中包含所有可打印字符,后跟一个句点,再后跟所有可打印字符。这个字符串然后被用来构造一个 Word
对象,它将匹配一组 space 分隔的字符组,好吧,所有可打印字符(并且因为 '.' 是可打印的,然后它已经在那组中了)。
我 怀疑 你真正想要用来解析带有可选前导减号的实数的是
Optional('-') + Word(nums) + '.' + Word(nums)`
请注意,添加是通过解析表达式完成的,而不是传递给 Word 的字符串。这会将“-1.23”解析为 ['-', '1', '.', '23']
。要将所有这些作为单个字符串获取,请将其包装在 Combine 中:
Combine(Optional('-') + Word(nums) + '.' + Word(nums))
然后您将通过使用该表达式得到“-1.23”。之后仍然需要您使用 float()
内置函数将其转换为 Python 浮点数。
pyparsing_common.real
是一个预定义的浮点解析表达式,它将处理前导符号, 和 在解析时从字符串转换为浮点数,这样当你得到来自解析器的值,它已经转换为浮点数。