Python: 解析未知长度的文本

Question

我有一个充满字符串的数据库，例如：

as.web.product.viewed(AT)2018-01-28T19:00:52.032Z(THEN)as.web.product.viewed(AT)2018-01-28T19:02:20.132Z

（另一个可能的分隔符是“（WITH）”，动作是 as.web.product.purchased 所以理想情况下我需要一个尽可能通用的解决方案）

一个序列中可以有任意数量的动作，且顺序大致任意。我需要能够隔离动作名称（例如 as.web.product.viewed）和它发生的时间，以及保持动作的顺序。

最 Python 的做法是什么？

编辑：所需输出（对于上面的示例）- 2 个列表，例如：

['as.web.product.viewed','as.web.product.viewed']
['2018-01-28T19:00:52.032Z','2018-01-28T19:02:20.132Z']

Answer 1

当出现圆括号中的文本时，您可以使用正则表达式拆分字符串：

import re
pat = re.compile('''\([A-Za-z]+\)''')
s = "as.web.product.viewed(AT)2018-01-28T19:00:52.032Z(THEN)as.web.product.viewed(AT)2018-01-28T19:02:20.132Z"
r = (re.split(pat, s))
print (list(zip(r[::2], r[1::2]))) # group pairwise if needed !

这个returns:

[('as.web.product.viewed', '2018-01-28T19:00:52.032Z'), ('as.web.product.viewed', '2018-01-28T19:02:20.132Z')]

Python: 解析未知长度的文本

Python: parsing text of unknown length

python

parsing

text-processing

text-parsing

string-parsing