将 og:image 用于自定义 Feed 聚合器

Using og:image For Custom Feed Aggregator

我正在开发自定义 RSS 提要聚合器,它解析来自各种 news-type 站点的 RSS 提要,显示摘要并链接回原始站点。没有什么特别令人兴奋的。

我正在尝试通过使用原始页面的 og:image 元标记为每篇文章获取图像。

但是,我发现在以编程方式访问图像时,og:image 标记 return 中的许多 URL 出现 400、403 或 404 错误。

有些似乎会在 header 中检查浏览器的用户代理字符串,因此仅出于测试目的,我已将我的 User-Agent 字符串 header 设置为 Safari 的字符串:这使一些 og:image 链接工作,但它不是一个可接受的解决方案(伪装成浏览器的爬虫)。

虽然这对大多数图像不起作用,它们继续 return 400/403。

假设我测试过的所有网站都没有丢失图像文件,并且它们主动阻止 Facebook/Twitter 以外的任何人使用这些图像,是否有任何其他方法可以可靠地以编程方式检索图像以在 RSS 聚合器中显示?

Feedly 等网站的绝大多数聚合内容似乎都有图片,所以我不清楚为什么我遇到这样的困难。

您已经找到了解决方案,这确实不是首选:更改您的 User-Agent 字符串。

你也可以换个方式解决问题;您无需自己抓取图像,只需保存图像的 URL。在您的 RSS 提要聚合器中,您使用该直接图像 url,以便执行请求的浏览器是真正的客户端,而不是您的(服务器端启动的)爬虫。

这样行吗?