我如何获得最少的网站文章使用 portia

How do I get the least articles of a website use portia

我正在使用portia爬取一个网站的文章,现在我想知道如何每天获取最少的文章,当运行 portia spider?

我从文章中想到了使用datetime,对比现在datetime.But有没有更好的?

取决于网站的结构,但如果每篇文章都在不同的 URL 中,您可以使用 deltafetch 蜘蛛中间件过滤之前抓取中已经访问过的 URL .

要启用安装 scrapylib 并将其添加到您的 settings.py:

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True