Scrapy 规则的正则表达式

Question

我想从以下格式的页面中抓取数据：http://www.vesselfinder.com/vessels?page=i 其中 i 是从 0 到某个整数。

以下正则表达式是否适用于此模式：

start_urls = [
        "http://www.vesselfinder.com/vessels"
    ]

rules = (
    Rule(LinkExtractor(allow=r"com/vessels\?page=[1-100]"),
         callback='parse_item', follow=True),
)

Answer 1

对于 1-100 范围，您可以使用

r"com/vessels\?page=(?:[1-9][0-9]?|100)\b"

见demo

如果您需要任何数字，只需使用 \d+:

r"com/vessels\?page=\d+"

见demo 2

Scrapy 规则的正则表达式

Regular expression for Scrapy rules

python

regex

scrapy-spider