比较两个大文本文档并计算它们之间的某种百分比相似性
Compare two large text documents and calculate some sort of percentage similarity between them
我正在寻找一种工具(程序、网站或 R 包),可以免费比较两个文本文档并计算它们之间的某种百分比相似性。
文本文档为 .pdf 格式,但如果该解决方案适用于纯文本、.pdf 或 .docx 文件,我也会对此感到满意。 Whosebug 上有很多类似的问题,但我找不到任何专门针对我的情况的问题:仅比较两个文档并生成某种统计数据,告诉我有关文本相似性的一些信息(最好是百分比)。我意识到这个统计数据将取决于 algorithm/technique 用于计算文档之间的相似性。这可以。我只是想要一些方法来量化这两个文档的相似程度。
背景
我最近交了博士论文。在这样做之前,我支付了证明 reader 来检查文本。他们返回了一份文件,其中几乎每一个句子都被更改了。虽然有些建议是改进,但有太多的建议和编辑让我无法完成。最后,我只接受了其中的极少数。在浪费时间和金钱之后,我有点酸痛。真的感觉证明reader简直就是改写了我的论文。这让我想知道这两个输出到底有多相似:我完成的论文和接受了他们所有建议和编辑的论文。我尝试了一些网站和程序,但都没有达到我想要的效果:Draftable、Word 和 Adobe Acrobat Pro 都返回了 changes/differences 的列表,但我无法将其转换为比率,因此我无法知道如何类似的文件。 Copyleaks 的免费试用不允许我输入与论文一样大的文档。 DiffPDF 似乎为每个页面产生了相似度百分比,但我需要它用于整个文档。我得到的最接近的是 text-sim。它返回的相似度百分比为 97.6%。这很可能是最“正确”的答案。我觉得这两份文件比那更不相似。当然,我可能是错的。如果至少有一个其他程序可以确认这个百分比,我会很高兴。
我以后有人遇到过这个 post,我想我会记下我最终是如何解决这个问题的:
我能够试用 DiffPDF 的试用版。该应用程序确实计算了整个文档的百分比分数,而不仅仅是我想的每个页面。请注意,您必须确保两个文档在结构上相似:我让每个部分(包括所有小节)都从新页面开始,并确保每个部分在两个文档中的相同页码开始。 DiffPDF 逐页进行比较,因此如果页面不同步,它们将被标记为不同。我还删除了参考列表和 table 的内容,因为它们无论如何都是一样的。最后,我完成的文档版本以及我接受所有建议编辑的版本获得了 40% 的分数。 0% 表示两个相同的文档,因此这表明两个文档的相似性大于不同之处。尽管如此,还是 相似。
我正在寻找一种工具(程序、网站或 R 包),可以免费比较两个文本文档并计算它们之间的某种百分比相似性。 文本文档为 .pdf 格式,但如果该解决方案适用于纯文本、.pdf 或 .docx 文件,我也会对此感到满意。 Whosebug 上有很多类似的问题,但我找不到任何专门针对我的情况的问题:仅比较两个文档并生成某种统计数据,告诉我有关文本相似性的一些信息(最好是百分比)。我意识到这个统计数据将取决于 algorithm/technique 用于计算文档之间的相似性。这可以。我只是想要一些方法来量化这两个文档的相似程度。
背景 我最近交了博士论文。在这样做之前,我支付了证明 reader 来检查文本。他们返回了一份文件,其中几乎每一个句子都被更改了。虽然有些建议是改进,但有太多的建议和编辑让我无法完成。最后,我只接受了其中的极少数。在浪费时间和金钱之后,我有点酸痛。真的感觉证明reader简直就是改写了我的论文。这让我想知道这两个输出到底有多相似:我完成的论文和接受了他们所有建议和编辑的论文。我尝试了一些网站和程序,但都没有达到我想要的效果:Draftable、Word 和 Adobe Acrobat Pro 都返回了 changes/differences 的列表,但我无法将其转换为比率,因此我无法知道如何类似的文件。 Copyleaks 的免费试用不允许我输入与论文一样大的文档。 DiffPDF 似乎为每个页面产生了相似度百分比,但我需要它用于整个文档。我得到的最接近的是 text-sim。它返回的相似度百分比为 97.6%。这很可能是最“正确”的答案。我觉得这两份文件比那更不相似。当然,我可能是错的。如果至少有一个其他程序可以确认这个百分比,我会很高兴。
我以后有人遇到过这个 post,我想我会记下我最终是如何解决这个问题的:
我能够试用 DiffPDF 的试用版。该应用程序确实计算了整个文档的百分比分数,而不仅仅是我想的每个页面。请注意,您必须确保两个文档在结构上相似:我让每个部分(包括所有小节)都从新页面开始,并确保每个部分在两个文档中的相同页码开始。 DiffPDF 逐页进行比较,因此如果页面不同步,它们将被标记为不同。我还删除了参考列表和 table 的内容,因为它们无论如何都是一样的。最后,我完成的文档版本以及我接受所有建议编辑的版本获得了 40% 的分数。 0% 表示两个相同的文档,因此这表明两个文档的相似性大于不同之处。尽管如此,还是 相似。