使用 scrapy 抓取具有相同内容(例如 /product)的 url
Crawl urls with same content (ex. /product) when crawling with scrapy
如何使用 scrapy 抓取具有相同条件的多个页面?示例:我想识别电子商务网站中不包含产品照片(或其他内容)的所有产品页面
class SomewebsiteProductSpider(scrapy.Spider):
name = "test"
allowed_domains = ["test.com"]
start_urls = [测试.com/product]
在许多示例中,我看到开头 url 总是对应于单个页面。
这可能吗?谢谢!
如果您想识别网页的所有项目,最好从一个页面开始——通常是网站的主页——然后从那里开始抓取。您想使用列出您感兴趣的所有类别的网站页面。
使用 scrapy,您可以定义蜘蛛应该跟踪哪些链接,它应该解析哪些页面,以及 return 给您的信息。
所以这是可能的,scrapy 是一个很好的工具。
如何使用 scrapy 抓取具有相同条件的多个页面?示例:我想识别电子商务网站中不包含产品照片(或其他内容)的所有产品页面
class SomewebsiteProductSpider(scrapy.Spider):
name = "test"
allowed_domains = ["test.com"]
start_urls = [测试.com/product]
在许多示例中,我看到开头 url 总是对应于单个页面。
这可能吗?谢谢!
如果您想识别网页的所有项目,最好从一个页面开始——通常是网站的主页——然后从那里开始抓取。您想使用列出您感兴趣的所有类别的网站页面。
使用 scrapy,您可以定义蜘蛛应该跟踪哪些链接,它应该解析哪些页面,以及 return 给您的信息。
所以这是可能的,scrapy 是一个很好的工具。