scrapy 中的 SgmlLinkExtractor

Question

我需要一些关于 scrapy 中 SgmlLinkExtractor 的启发。

对于link：例子。com/YYYY/MM/DD/title我会写：

Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]

对于link：例子。com/news/economic/title我应该写：

r'\news\category\w+'或r'\news\w+/\w+'？（类别更改但 url 始终包含新闻）

对于link：例子。com/article/title我应该写：

r'\article\w+'？（url 始终包含文章）

Answer 1

如果您不提供完整的示例字符串以及您要使用正则表达式匹配（和不想匹配）的内容，则无法回答 "should i" 问题。

我猜，你的正则表达式不起作用，因为你使用 \ 而不是 /。

我建议您转到 regex101 并测试您的网址是否与您的正则表达式匹配。请参阅以下屏幕截图：

SgmlLinkExtractor in scrapy