用scrapy从rss抓取新闻网站

Question

我想阅读一些新闻网站的 rss 提要，例如 nytimes.com rss:

<item>
    <title>
        White House Signals Acceptance of Russia Sanctions Bill
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/us/politics/trump-russia-
        sanctions.html?partner=rss&emc=rss
    </link>
    <pubDate>Sun, 23 Jul 2017 23:26:41 GMT</pubDate>
</item>
<item>
    <title>
        News Analysis: For Trump and Putin, Sanctions Are a Setback 
        Both Sought to Avoid
    </title>
    <link>
        https://www.nytimes.com/2017/07/23/world/europe/trump-putin-
        sanctions-hacking.html?partner=rss&emc=rss
    </link>
    <pubDate>Mon, 24 Jul 2017 00:35:14 GMT</pubDate>
</item>

查找我尚未阅读的新项目，并为每个项目商店 link、标题和 GET link 抓取其中的一些内容。我的问题是我可以为此目的使用 scrapy 吗？如果可以，如何使用？

Answer 1

是的，您可以为此目的使用 Scrapy。您可以使用一些东西来构建您的解决方案：

从设计用于解析 XML 提要的 XMLFeedSpider 开始。提供的 link 中有一个简单示例。
要关注 link 个别文章，从中提取一些数据并将其添加到从 XML 提要中提取的数据，使用 requests chaining.
你没有指定我还没有读过的项目应该如何实现。如果你的意思是不返回在之前的一些运行中已经抓取的项目，你可以使用 scrapy-deltafetch package.

现在您只需要将这些部分拼凑起来即可。

用scrapy从rss抓取新闻网站

Crawl news website from rss with scrapy

python

django

rss

scrapy