如何在 Portia visual scrapy 中使用正则表达式?
How to use regex in Portia visual scrapy?
我可以使用 Portia 网络爬虫对网页进行注释,我的问题是如何在提取数据时使用正则表达式。
例如,
我已经从页面中提取了 Location 归档
输出看起来像,
位置:位置 xyz,abc
但我只需要 xyz,abc 值。
我已经在谷歌上搜索了解决方案,但没有获得更多信息。
你能解释一下 Portia scrapy 中的正则表达式吗?
您需要使用捕获组来提取数据,因此在这种情况下:
Location: (.*)
这会告诉 portia 提取 Location:
字符串之后的所有数据。
例如,如果您只想提取 Location:
和 ,
之间的所有数据,您可以使用以下命令:
Location: (.*),
您还可以将信息放在捕获组中,以便提取包括您的模式在内的所有数据。
我可以使用 Portia 网络爬虫对网页进行注释,我的问题是如何在提取数据时使用正则表达式。
例如,
我已经从页面中提取了 Location 归档
输出看起来像,
位置:位置 xyz,abc
但我只需要 xyz,abc 值。
我已经在谷歌上搜索了解决方案,但没有获得更多信息。
你能解释一下 Portia scrapy 中的正则表达式吗?
您需要使用捕获组来提取数据,因此在这种情况下:
Location: (.*)
这会告诉 portia 提取 Location:
字符串之后的所有数据。
例如,如果您只想提取 Location:
和 ,
之间的所有数据,您可以使用以下命令:
Location: (.*),
您还可以将信息放在捕获组中,以便提取包括您的模式在内的所有数据。