用于从网络爬虫中排除 URL 的正则表达式
Regular expression to exclude URLs from web crawler
我正在使用在线工具抓取我客户的网站并提供其中存在的页面/URL 的列表。
有一个排除页面的选项,它给出了一个正则表达式示例\?.*page=.*$
我想忽略新闻部分的所有内容(除 来自新闻页面本身)
那么我会选择以下内容吗?
\?.*news/.*$
如果我没理解错的话,你正在寻找匹配 news/foo
或 news/foo/bar
但不匹配 news/
.
的正则表达式
您可以为此使用此正则表达式:.*news/.+
.*
字符串以 0 个或多个字符开头
news/
字符串包含新闻/
.+
字符串以 1 个或多个字符结尾
我正在使用在线工具抓取我客户的网站并提供其中存在的页面/URL 的列表。
有一个排除页面的选项,它给出了一个正则表达式示例\?.*page=.*$
我想忽略新闻部分的所有内容(除 来自新闻页面本身)
那么我会选择以下内容吗?
\?.*news/.*$
如果我没理解错的话,你正在寻找匹配 news/foo
或 news/foo/bar
但不匹配 news/
.
您可以为此使用此正则表达式:.*news/.+
.*
字符串以 0 个或多个字符开头
news/
字符串包含新闻/
.+
字符串以 1 个或多个字符结尾