逐字节相同 Vs。等效内容

byte-wise identical Vs. equivalent content

如果我们有两个网页,比如说,一个在 www.example.com/a,另一个在 www.anotherExample.com/b,这两个页面的字节相同内容和这两个页面的等效内容之间有什么区别页?考虑到 Java,是否有任何工具或库可以调查这两种情况?

编辑

为了缩小我的问题范围,我建议这个问题的读者参考以下 article 第 2 部分。

好吧,那篇文章的第 2 部分解释了作者 的等效内容的含义:

... pages often change at the byte level (e.g., by the addition of blank lines, by HTML reformatting, etc) without any change of content. Hence we say that two pages are content equivalent if they have identical content after such normalizations.

该短语没有标准含义;在那篇文章的上下文中的意思就是他们所说的意思。

我不知道有任何 Java 工具或库专门实现了该定义。但是,我会将其解释为如果两个页面生成相同的 DOM.1,则这两个页面的内容相同 所以任何从网络构建 DOM 的工具页面可用于测试该文章意义上的内容等效性。

示例:

original.html:

<html>
<head><title>A page</title></head>
<body><h1>A page header</h1></body>
</html>

content-equivalent.html:

<html>
<head>
  <title>A page</title>
</head>
<body>
<h1>A page header</h1>
</body>
</html>

文件original.htmlcontent-equivalent.html在字节方面相等,但它们的内容是等价的。

1请注意,这是一个非常严格的解释。即使像重新排序 <link> 和其他元数据元素这样的更改也会使两个页面的内容不相同。这可能是也可能不是作者的意图。你得问问他们。但是这篇文章的语言向我表明这正是他们的意图。