阻止 WGET 返回 'shortlink' Wordpress 页面?
Stop WGET from returning 'shortlink' Wordpress pages?
我正在使用 WGET
抓取两个 几乎 相同的网站。
然后我计划 运行 和 DIFF
找出任何不同之处。 (我基本上是将一个网站移到新服务器上,并希望确保一切正常)
以下是我在旧服务器和新服务器上抓取的结果:
您可以在下面看到新服务器上有很多 index.html?p=?
个文件。
我已经设法弄清楚这是由于代码中的一个标记链接到页面的 'shortlink' 版本。这是通过一个名为 'Yoast' 的插件引入的,该插件存在于新服务器上但不存在于旧服务器上。除此之外,该网站几乎完全相同。 (甚至服务器设置等)
(目录中有超过 2,000 个索引文件)
我需要每个 WGET
的结果相同,这样我才能 DIFF
这两个站点。
这是导致新服务器上发生这种情况的代码中的标记:
现在进入正题。如何让 WGET
忽略这些短链接标签并像在旧服务器上一样抓取网站?
我尝试了各种不同的 WGET
参数,但都没有效果。这是我当前的 WGET
命令:
wget --recursive --html-extension --page-requisites --convert-links www.domain.ac.uk
如何修改此命令以忽略 'shortlink' 标签?
谢谢
我找到了如何删除实际标签的方法。这对我来说不是解决办法,因为我需要那里的标签,但对于遇到此问题的其他人,请将其添加到您的 functions.php:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);
没有解决,但如果您也是您正在扫描的网站的所有者,您可以简单地添加:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);
给你的 functions.php 隐藏元标记。
我正在使用 WGET
抓取两个 几乎 相同的网站。
然后我计划 运行 和 DIFF
找出任何不同之处。 (我基本上是将一个网站移到新服务器上,并希望确保一切正常)
以下是我在旧服务器和新服务器上抓取的结果:
您可以在下面看到新服务器上有很多 index.html?p=?
个文件。
我已经设法弄清楚这是由于代码中的一个标记链接到页面的 'shortlink' 版本。这是通过一个名为 'Yoast' 的插件引入的,该插件存在于新服务器上但不存在于旧服务器上。除此之外,该网站几乎完全相同。 (甚至服务器设置等)
(目录中有超过 2,000 个索引文件)
我需要每个 WGET
的结果相同,这样我才能 DIFF
这两个站点。
这是导致新服务器上发生这种情况的代码中的标记:
现在进入正题。如何让 WGET
忽略这些短链接标签并像在旧服务器上一样抓取网站?
我尝试了各种不同的 WGET
参数,但都没有效果。这是我当前的 WGET
命令:
wget --recursive --html-extension --page-requisites --convert-links www.domain.ac.uk
如何修改此命令以忽略 'shortlink' 标签?
谢谢
我找到了如何删除实际标签的方法。这对我来说不是解决办法,因为我需要那里的标签,但对于遇到此问题的其他人,请将其添加到您的 functions.php:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);
没有解决,但如果您也是您正在扫描的网站的所有者,您可以简单地添加:
remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);
给你的 functions.php 隐藏元标记。