用于从网络爬虫中排除 URL 的正则表达式

Regular expression to exclude URLs from web crawler

我正在使用在线工具抓取我客户的网站并提供其中存在的页面/URL 的列表。

有一个排除页面的选项，它给出了一个正则表达式示例\?.*page=.*$

我想忽略新闻部分的所有内容（除来自新闻页面本身）

那么我会选择以下内容吗？

\?.*news/.*$

如果我没理解错的话，你正在寻找匹配 news/foo 或 news/foo/bar 但不匹配 news/.

的正则表达式

您可以为此使用此正则表达式：.*news/.+

.* 字符串以 0 个或多个字符开头

news/ 字符串包含新闻/

.+ 字符串以 1 个或多个字符结尾