使用 scrapy 抓取具有相同内容（例如 /product）的 url

Question

如何使用 scrapy 抓取具有相同条件的多个页面？示例：我想识别电子商务网站中不包含产品照片（或其他内容）的所有产品页面

class SomewebsiteProductSpider(scrapy.Spider):
name = "test"
allowed_domains = ["test.com"]

start_urls = [测试.com/product]

在许多示例中，我看到开头 url 总是对应于单个页面。

这可能吗？谢谢！

Answer 1

如果您想识别网页的所有项目，最好从一个页面开始——通常是网站的主页——然后从那里开始抓取。您想使用列出您感兴趣的所有类别的网站页面。

使用 scrapy，您可以定义蜘蛛应该跟踪哪些链接，它应该解析哪些页面，以及 return 给您的信息。

所以这是可能的，scrapy 是一个很好的工具。

Crawl urls with same content (ex. /product) when crawling with scrapy