Facebook 网络爬虫

Facebook web crawler

我正在尝试构建一个网络爬虫来登录 FaceBook 并检查我正在为我的 parents 构建的项目的一些家庭成员的在线状态。搜索了一下,发现可以通过FQL查询好友在线状态来实现,不过好像要在今年4月左右去掉。所以我想也许我可以自己在 python 中做一个基本的爬虫,它将在我的聊天中从在线朋友那里获取 HTML 信息,但是当我试图在之后打印出 HTML 代码时尝试登录时,它 returns 大量混乱的 HTML 和 javascript 提到了 "BigPipe." 我看到 BigPipe 将页面分成 pagelet,但我有点困惑关于如何使用这些信息。

所以我的问题是,有没有人知道除 FQL 查询之外的其他获取在线状态的方法,有没有其他人试图抓取 Facebook,有没有人试图用这个 BigPipe 响应来抓取任何网站?

提前谢谢你, 杰克

您或许可以编写 FireFox 扩展。没有 JavaScript,你将无法抓取 FB。这几乎排除了大多数传统的抓取方法。

使用PyQt4.QtWebKit将有助于处理javascript。

这里是它的一些基本用法:webkit-pyqt-rendering-web-pages

文档:PyQt4-qtwebkit.html

我刚刚完成我的学校项目,该项目需要来自 Facebook 群组成员的用户数据。我使用了网络爬虫工具 - Octoparse for data extraction, it's a non-programming application and can be used to crawl different types of data on Facebook. You can go to this tutorial:Facebook Scraping Case Study | Scraping Facebook Groups