如何在 Portia visual scrapy 中使用正则表达式？

Question

我可以使用 Portia 网络爬虫对网页进行注释，我的问题是如何在提取数据时使用正则表达式。

例如，

我已经从页面中提取了 Location 归档

输出看起来像，

位置：位置 xyz,abc

但我只需要 xyz,abc 值。

我已经在谷歌上搜索了解决方案，但没有获得更多信息。

你能解释一下 Portia scrapy 中的正则表达式吗？

Answer 1

您需要使用捕获组来提取数据，因此在这种情况下：

Location: (.*)

这会告诉 portia 提取 Location: 字符串之后的所有数据。

例如，如果您只想提取 Location: 和 , 之间的所有数据，您可以使用以下命令：

Location: (.*),

您还可以将信息放在捕获组中，以便提取包括您的模式在内的所有数据。

How to use regex in Portia visual scrapy?