如何使用 python 从网站定期抓取 RSS 提要

Question

我想制作一个新闻聚合器 android 应用程序，使用我的笔记本电脑作为本地服务器，我的 project.I 计划使用 apache，php，mysql 在我的 backend.I 决定对此应用简单的机器学习技术 application.So 这个应用程序不仅能够收集文章，还能按主题分类。

我已经实现了基本的 Scikit-learn Naive Bayes classifier。我想知道如何在一段时间内自动抓取和存储来自服务器上多个站点的 RSS 提要 time.What 我应该使用哪种库或技术来实现它？

Answer 1

我建议您使用 Python 上可用的更常见和常用的库来完成此任务，并使用 Cron 或 Windows 任务计划程序运行您的脚本（根据 OS你会用到）。

使用通用库将使您能够轻松获得支持、阅读优秀文档或在在线搜索错误/教程时找到许多页面。

我用于一般抓取和 RSS 的库是：

Urllib2 or Requests（获取互联网页面）
BeautifulSoup（用于从 HTML 和 XML 文件中提取数据）
FeedParser（处理 RSS 提要）

这是一个简单且最小的示例，它使用 BeautifulSoup:

提取当前的以太坊值来抓取网站

import urllib2
from bs4 import BeautifulSoup

opener = urllib2.build_opener()
opener.addheaders = [('User-Agent', 'Mozilla/5.0')]
page = opener.open('https://ethereumprice.org/')
soup = BeautifulSoup(page, "lxml")
div = soup.find('span', id='ep-price')
ethereum_rate = div.contents[0]

print ethereum_rate

这是一个使用 FeedParser 的简单且最小的示例：

import feedparser

python_wiki_rss_url = "http://www.python.org/cgi-bin/moinmoin/" \
                       "RecentChanges?action=rss_rc"

feed = feedparser.parse( python_wiki_rss_url )

print feed

如何使用 python 从网站定期抓取 RSS 提要

How to crawl RSS feeds periodically from websites using python

python

rss

android

machine-learning