scrapy 中的 SgmlLinkExtractor

SgmlLinkExtractor in scrapy

我需要一些关于 scrapy 中 SgmlLinkExtractor 的启发。

对于link:例子。com/YYYY/MM/DD/title我会写:

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

对于link:例子。com/news/economic/title我应该写:

r'\news\category\w+'r'\news\w+/\w+'? (类别 更改但 url 始终包含 新闻

对于link:例子。com/article/title我应该写:

r'\article\w+'? (url 始终包含 文章

如果您不提供完整的示例字符串以及您要使用正则表达式匹配(和不想匹配)的内容,则无法回答 "should i" 问题。

我猜,你的正则表达式不起作用,因为你使用 \ 而不是 /

我建议您转到 regex101 并测试您的网址是否与您的正则表达式匹配。请参阅以下屏幕截图: