阻止 WGET 返回 'shortlink' Wordpress 页面?

Stop WGET from returning 'shortlink' Wordpress pages?

我正在使用 WGET 抓取两个 几乎 相同的网站。

然后我计划 运行 和 DIFF 找出任何不同之处。 (我基本上是将一个网站移到新服务器上,并希望确保一切正常)

以下是我在旧服务器和新服务器上抓取的结果:

您可以在下面看到新服务器上有很多 index.html?p=? 个文件。

我已经设法弄清楚这是由于代码中的一个标记链接到页面的 'shortlink' 版本。这是通过一个名为 'Yoast' 的插件引入的,该插件存在于新服务器上但不存在于旧服务器上。除此之外,该网站几乎完全相同。 (甚至服务器设置等)

(目录中有超过 2,000 个索引文件)

我需要每个 WGET 的结果相同,这样我才能 DIFF 这两个站点。

这是导致新服务器上发生这种情况的代码中的标记:

现在进入正题。如何让 WGET 忽略这些短链接标签并像在旧服务器上一样抓取网站?

我尝试了各种不同的 WGET 参数,但都没有效果。这是我当前的 WGET 命令:

wget --recursive --html-extension --page-requisites --convert-links www.domain.ac.uk

如何修改此命令以忽略 'shortlink' 标签?

谢谢


我找到了如何删除实际标签的方法。这对我来说不是解决办法,因为我需要那里的标签,但对于遇到此问题的其他人,请将其添加到您的 functions.php:

remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);

没有解决,但如果您也是您正在扫描的网站的所有者,您可以简单地添加:

remove_action('wp_head', 'wp_shortlink_wp_head', 10, 0);

给你的 functions.php 隐藏元标记。