Facebook 打开图表抓取器未看到 HTML
Facebook open graph scraper not seeing HTML
我无法让 Facebook open graph scraper 查看我的页面或识别它们上的元标记。我们的一些页面可以工作(例如图书产品页面),但大多数页面在调试器中不显示任何图像或正确的标题信息。主页是我特别感兴趣让 Facebook 识别的主页,但还有许多其他主页不起作用。我们所有的页面在此处的 facebook 爬虫中都显示了 206 响应代码:https://developers.facebook.com/tools/debug/ 但是,对于大多数页面,当我检查 'what the scraper sees' link 时,我得到一个空白页面。我也试过只抓取主页上的图像 URL,调试器可以很好地看到图像。
这是主页link:
https://press.uchicago.edu/index.html
header 部分如下所示:
有一个从 https://press.uchicago.edu/ 到 index.html 页面的重定向,但我一直在使用上面的完整 link 进行测试。
但是,图书产品页面确实适用于抓取工具。比如这个:https://press.uchicago.edu/ucp/books/book/chicago/N/bo125517349.html
工作页面的 header 标签是这样的:
由于我通常在其他页面上看到响应 200,我在 scraper 调试器上测试,我还创建了一个主页的小版本,仅包含 open graph 元标记作为测试。该页面可以在这里看到:https://press.uchicago.edu/index4.html
这是该页面的全部来源:
即使是这么小的页面,调试器也给出了 206 的响应。我认为 206 可能与问题无关。 Facebook 支持页面说没问题,但这么小的页面会给出部分响应似乎很奇怪......所以这可能是问题的一部分。
另一件有趣的事情:我在我们的网站上测试了一个没有 og: 标签的页面,我第一次在抓取工具中尝试它时它成功了,显示了一张图片和许多构造的 og 标签.另外,当我点击 'What the scraper sees' link 时,它向我展示了很多信息。但是在调试器中对同一页面(根本没有改变)的后续测试是空图像,并且在抓取器中看到的是空白页面。这是那个页面:https://press.uchicago.edu/books/freeEbook.html
显然是缓存控件。我们将其设置为:“缓存控制:无缓存、无存储、必须重新验证、max-age=0”。但我将其更改为“Cache-Control: no-cache”,Facebook 突然可以看到该页面。
Facebook 一定需要存储该页面的副本,因此禁止存储设置可以防止这种情况发生。
这里有一些关于设置的更多信息:
“无缓存”和“无存储”
“无缓存”表示返回的响应不能用于满足对相同 URL 的后续请求,除非先与服务器核实响应是否已更改。因此,如果存在适当的验证令牌 (ETag),则无缓存会导致往返以验证缓存的响应,但如果资源未更改,则可以消除下载。
相比之下,“无店”就简单多了。它只是禁止浏览器和所有中间缓存存储任何版本的返回响应——例如,包含私人个人或银行数据的响应。每次用户请求此资产时,都会向服务器发送一个请求并下载完整的响应。
https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/Cache-Control#directives
我无法让 Facebook open graph scraper 查看我的页面或识别它们上的元标记。我们的一些页面可以工作(例如图书产品页面),但大多数页面在调试器中不显示任何图像或正确的标题信息。主页是我特别感兴趣让 Facebook 识别的主页,但还有许多其他主页不起作用。我们所有的页面在此处的 facebook 爬虫中都显示了 206 响应代码:https://developers.facebook.com/tools/debug/ 但是,对于大多数页面,当我检查 'what the scraper sees' link 时,我得到一个空白页面。我也试过只抓取主页上的图像 URL,调试器可以很好地看到图像。
这是主页link: https://press.uchicago.edu/index.html
header 部分如下所示:
有一个从 https://press.uchicago.edu/ 到 index.html 页面的重定向,但我一直在使用上面的完整 link 进行测试。
但是,图书产品页面确实适用于抓取工具。比如这个:https://press.uchicago.edu/ucp/books/book/chicago/N/bo125517349.html
工作页面的 header 标签是这样的:
由于我通常在其他页面上看到响应 200,我在 scraper 调试器上测试,我还创建了一个主页的小版本,仅包含 open graph 元标记作为测试。该页面可以在这里看到:https://press.uchicago.edu/index4.html
这是该页面的全部来源:
即使是这么小的页面,调试器也给出了 206 的响应。我认为 206 可能与问题无关。 Facebook 支持页面说没问题,但这么小的页面会给出部分响应似乎很奇怪......所以这可能是问题的一部分。
另一件有趣的事情:我在我们的网站上测试了一个没有 og: 标签的页面,我第一次在抓取工具中尝试它时它成功了,显示了一张图片和许多构造的 og 标签.另外,当我点击 'What the scraper sees' link 时,它向我展示了很多信息。但是在调试器中对同一页面(根本没有改变)的后续测试是空图像,并且在抓取器中看到的是空白页面。这是那个页面:https://press.uchicago.edu/books/freeEbook.html
显然是缓存控件。我们将其设置为:“缓存控制:无缓存、无存储、必须重新验证、max-age=0”。但我将其更改为“Cache-Control: no-cache”,Facebook 突然可以看到该页面。
Facebook 一定需要存储该页面的副本,因此禁止存储设置可以防止这种情况发生。
这里有一些关于设置的更多信息:
“无缓存”和“无存储”
“无缓存”表示返回的响应不能用于满足对相同 URL 的后续请求,除非先与服务器核实响应是否已更改。因此,如果存在适当的验证令牌 (ETag),则无缓存会导致往返以验证缓存的响应,但如果资源未更改,则可以消除下载。
相比之下,“无店”就简单多了。它只是禁止浏览器和所有中间缓存存储任何版本的返回响应——例如,包含私人个人或银行数据的响应。每次用户请求此资产时,都会向服务器发送一个请求并下载完整的响应。
https://developer.mozilla.org/en-US/docs/Web/HTTP/Headers/Cache-Control#directives