抓取博客 - 通过提前检查来自 json/csv 的网址来避免已经抓取的项目
Scraping Blogs - avoid already scraped items by checking urls from json/csv in advance
我想抓取新闻页面/博客(每天包含新信息的任何内容)。
我的 Crawler 工作正常,什么都做,我请他做。
但我找不到合适的解决方案来解决这种情况,我希望他忽略已经抓取的 url(或使其更通用的项目),而只是将新的 urls/items 添加到已经存在的 json/csv 文件.
我在这里看到了很多解决方案来检查 csv 文件中是否存在某个项目。但是 none 这个“解决方案”确实有效。
Scrapy DeltaFetch 似乎无法安装在我的系统上...我收到错误消息。以及所有提示,例如$ sudo pip install bsddb3,升级这个并更新那个..等等..没有成功。 (现在试了 3 个小时,厌倦了为一个包寻找解决方案,这个包自 2017 年以来就没有更新过)。
希望您有一个方便实用的解决方案。
非常感谢您!
此致!
选项可以是自定义 downloader middleware,具有以下内容:
- 一个 process_response 将您抓取的 url 放入数据库
- 一种 process_request 方法,用于检查 url 是否存在于数据库中。如果它在那里,你提出一个 IgnoreRequest 这样请求就不会再通过了。
我想抓取新闻页面/博客(每天包含新信息的任何内容)。
我的 Crawler 工作正常,什么都做,我请他做。
但我找不到合适的解决方案来解决这种情况,我希望他忽略已经抓取的 url(或使其更通用的项目),而只是将新的 urls/items 添加到已经存在的 json/csv 文件.
我在这里看到了很多解决方案来检查 csv 文件中是否存在某个项目。但是 none 这个“解决方案”确实有效。
Scrapy DeltaFetch 似乎无法安装在我的系统上...我收到错误消息。以及所有提示,例如$ sudo pip install bsddb3,升级这个并更新那个..等等..没有成功。 (现在试了 3 个小时,厌倦了为一个包寻找解决方案,这个包自 2017 年以来就没有更新过)。
希望您有一个方便实用的解决方案。
非常感谢您!
此致!
选项可以是自定义 downloader middleware,具有以下内容:
- 一个 process_response 将您抓取的 url 放入数据库
- 一种 process_request 方法,用于检查 url 是否存在于数据库中。如果它在那里,你提出一个 IgnoreRequest 这样请求就不会再通过了。