正则表达式分组选择

Question

我正在尝试使用 Regex 和分组，但在检索某些信息时遇到问题。我想要实现的是，具有以下文本：

<ed><a0><bd><ed><b2><9c><ed><a0><bd><ed><b2><9c><ed><a0><bd><ed><b4><91><ed><a0><bd><ed><b4><91>

我想要一个选择字符组的正则表达式，同时考虑概率 <ed>

例如，选择的第一个组是 <ed><a0><bd><ed><b2><9c>，选择的第二个组是 <ed><a0><bd><ed><b2><9c>

我可以通过什么方式实现？

Answer 1

假设您使用正则表达式的 Python 实现，这将有效：

re.findall('<ed>.*?<ed>.*?(?=<ed>)', string)

Answer 2

终于找到方法了。需要明确的是，一种从通过 twitteR API 在 R 中获得的推特文本中提取表情符号的方法，因此代码将是

str_extract_all(i, pattern='<U\+....>|<ed>.*?<ed>.*?>.*?>')

Regex grouping selection