如何在 nutch 中编写正则表达式?
How to write regular expression in nutch?
我正在使用 Nutch 来抓取网页。我在编写正则表达式时遇到问题。
它在以下配置下工作正常:
种子 url :
www.practo.com
(以 https:// 开头)
正则表达式-urlfilter.txt:
+^https://www.practo.com/
但我只想获取特定页面,例如包含有关 'cardiologist' 信息的页面
示例:我想获取如下页面:
www.practo.com/hyderabad/doctor/some-name-cardiologist
即我想获取以特定关键字结尾的页面。
我正在使用以下正则表达式:
+^https://www.practo.com(/[a-z0-9]*)*心脏病专家
请帮我写正则表达式
您可以使用以下内容:
+^https://www\.practo\.com.*cardiologist
我的问题得到了答案。问题是获取正确的正则表达式。
+^(https|http)://([a-zA-Z0-9./-]+)心脏病专家([a-zA-Z0-9-#?=]) *
以下网站帮助我找到正确的表达方式:https://regex101.com/
我正在使用 Nutch 来抓取网页。我在编写正则表达式时遇到问题。
它在以下配置下工作正常: 种子 url : www.practo.com (以 https:// 开头)
正则表达式-urlfilter.txt: +^https://www.practo.com/
但我只想获取特定页面,例如包含有关 'cardiologist' 信息的页面 示例:我想获取如下页面: www.practo.com/hyderabad/doctor/some-name-cardiologist 即我想获取以特定关键字结尾的页面。
我正在使用以下正则表达式: +^https://www.practo.com(/[a-z0-9]*)*心脏病专家
请帮我写正则表达式
您可以使用以下内容:
+^https://www\.practo\.com.*cardiologist
我的问题得到了答案。问题是获取正确的正则表达式。
+^(https|http)://([a-zA-Z0-9./-]+)心脏病专家([a-zA-Z0-9-#?=]) *
以下网站帮助我找到正确的表达方式:https://regex101.com/