抓取 Public Facebook 帖子
Crawl Public Facebook Posts
我创建了一个网站,人们可以在其中 post link 访问其他网站,然后后端生成 link 的预览(通过使用 curl 并解析出打开的图表大多数网站上可用的标签/通过选择第一张图片、html 标题等)。现在,经过一些调整后很好,但有时我会遇到某种速率限制。
这是我要解析的 link 的一个示例:https://www.facebook.com/HBR/posts/10157131816732787
我可以解析它 4 或 5 次并获得标题、图像等,但如果我重复它,我将被发送到 facebook 的登录页面。我怎样才能避免这种情况?
我试图在 https://developers.facebook.com/tools/debug/sharing 处解析 link,但它显示 "Facebook URLs cannot be crawled"。所以我的问题是:如果他们甚至不允许在他们的调试器上使用它们,我什至应该如何解析那些 links?
是否有任何类型的 API 允许我在没有用户登录的情况下获取此信息?我不想解析整个 Facebook 页面、个人资料等,只是预览我的用户可能会在网站上 post 的 link。
如果您想获取 Facebook 页面(或 Facebook 上的任何其他内容)的数据,则必须使用 Facebook Graph API,不允许抓取数据。
为了获取不属于您的主页的数据,您需要申请主页 Public 内容访问权限:https://developers.facebook.com/docs/apps/review/feature/#reference-PAGES_ACCESS
在这种情况下,应用访问令牌(无需登录)就足够了。
API 参考页面:https://developers.facebook.com/docs/graph-api/reference/page/
我不认为 show.You 可以使用 python selenium 和 beautiful soup
在 public 组中爬行 post
我创建了一个网站,人们可以在其中 post link 访问其他网站,然后后端生成 link 的预览(通过使用 curl 并解析出打开的图表大多数网站上可用的标签/通过选择第一张图片、html 标题等)。现在,经过一些调整后很好,但有时我会遇到某种速率限制。
这是我要解析的 link 的一个示例:https://www.facebook.com/HBR/posts/10157131816732787
我可以解析它 4 或 5 次并获得标题、图像等,但如果我重复它,我将被发送到 facebook 的登录页面。我怎样才能避免这种情况?
我试图在 https://developers.facebook.com/tools/debug/sharing 处解析 link,但它显示 "Facebook URLs cannot be crawled"。所以我的问题是:如果他们甚至不允许在他们的调试器上使用它们,我什至应该如何解析那些 links?
是否有任何类型的 API 允许我在没有用户登录的情况下获取此信息?我不想解析整个 Facebook 页面、个人资料等,只是预览我的用户可能会在网站上 post 的 link。
如果您想获取 Facebook 页面(或 Facebook 上的任何其他内容)的数据,则必须使用 Facebook Graph API,不允许抓取数据。
为了获取不属于您的主页的数据,您需要申请主页 Public 内容访问权限:https://developers.facebook.com/docs/apps/review/feature/#reference-PAGES_ACCESS
在这种情况下,应用访问令牌(无需登录)就足够了。
API 参考页面:https://developers.facebook.com/docs/graph-api/reference/page/
我不认为 show.You 可以使用 python selenium 和 beautiful soup
在 public 组中爬行 post