我如何获得最少的网站文章使用 portia
How do I get the least articles of a website use portia
我正在使用portia爬取一个网站的文章,现在我想知道如何每天获取最少的文章,当运行 portia spider?
我从文章中想到了使用datetime,对比现在datetime.But有没有更好的?
取决于网站的结构,但如果每篇文章都在不同的 URL 中,您可以使用 deltafetch 蜘蛛中间件过滤之前抓取中已经访问过的 URL .
要启用安装 scrapylib 并将其添加到您的 settings.py:
SPIDER_MIDDLEWARES = {
'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True
我正在使用portia爬取一个网站的文章,现在我想知道如何每天获取最少的文章,当运行 portia spider?
我从文章中想到了使用datetime,对比现在datetime.But有没有更好的?
取决于网站的结构,但如果每篇文章都在不同的 URL 中,您可以使用 deltafetch 蜘蛛中间件过滤之前抓取中已经访问过的 URL .
要启用安装 scrapylib 并将其添加到您的 settings.py:
SPIDER_MIDDLEWARES = {
'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True