scrapy 中的 SgmlLinkExtractor
SgmlLinkExtractor in scrapy
我需要一些关于 scrapy 中 SgmlLinkExtractor 的启发。
对于link:例子。com/YYYY/MM/DD/title我会写:
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
对于link:例子。com/news/economic/title我应该写:
r'\news\category\w+'
或r'\news\w+/\w+'
? (类别 更改但 url 始终包含 新闻)
对于link:例子。com/article/title我应该写:
r'\article\w+'
? (url 始终包含 文章 )
如果您不提供完整的示例字符串以及您要使用正则表达式匹配(和不想匹配)的内容,则无法回答 "should i" 问题。
我猜,你的正则表达式不起作用,因为你使用 \
而不是 /
。
我建议您转到 regex101 并测试您的网址是否与您的正则表达式匹配。请参阅以下屏幕截图:
我需要一些关于 scrapy 中 SgmlLinkExtractor 的启发。
对于link:例子。com/YYYY/MM/DD/title我会写:
Rule(SgmlLinkExtractor(allow=[r'\d{4}/\d{2}/\d{2}/\w+']), callback='parse_example')]
对于link:例子。com/news/economic/title我应该写:
r'\news\category\w+'
或r'\news\w+/\w+'
? (类别 更改但 url 始终包含 新闻)
对于link:例子。com/article/title我应该写:
r'\article\w+'
? (url 始终包含 文章 )
如果您不提供完整的示例字符串以及您要使用正则表达式匹配(和不想匹配)的内容,则无法回答 "should i" 问题。
我猜,你的正则表达式不起作用,因为你使用 \
而不是 /
。
我建议您转到 regex101 并测试您的网址是否与您的正则表达式匹配。请参阅以下屏幕截图: