Scrapy 规则的正则表达式

Regular expression for Scrapy rules

我想从以下格式的页面中抓取数据:http://www.vesselfinder.com/vessels?page=i 其中 i 是从 0 到某个整数。

以下正则表达式是否适用于此模式:

start_urls = [
        "http://www.vesselfinder.com/vessels"
    ]

rules = (
    Rule(LinkExtractor(allow=r"com/vessels\?page=[1-100]"),
         callback='parse_item', follow=True),
)

对于 1-100 范围,您可以使用

r"com/vessels\?page=(?:[1-9][0-9]?|100)\b"

demo

如果您需要任何数字,只需使用 \d+:

r"com/vessels\?page=\d+"

demo 2