从网站检索数据-hadoop

Retrieve data from a website-hadoop

我过去可以使用开发人员 API 从 Twitter 检索 data\tweets。

现在我想从网站检索数据。它不是点击流数据,而是网站中正在更新的实际数据。例如,我想检索在板球网站(如 cricinfo 等)中每天更新的比赛详细信息。

有人可以帮助我如何做到这一点。

谢谢, 斯里

查看 this. Probably you can also try using RSS Feeds 由 espncricinfo.com 提供的用于此目的的内容。