tf-idf 实现

tf-idf implementation

我正在对 2 个字符串进行抄袭检测,为此我使用 "Levenshtein Distance Algorithm" 来查找抄袭百分比,并使用 "tf idf" 来查找关键字。但是现在我在突出显示相似文本时遇到了问题,我正在考虑使用关键字作为种子来形成集群并突出显示该集群,但这似乎需要做很多工作。任何人都可以指导我如何去做,或任何其他方式。请帮助我完成我的大学项目。

假设你有自己的方法在文本中找到相似的词,你可以在你想要标记的词周围添加一个span标签,给它们 class 属性,并将 CSS class 设置为 background-color:yellow;

我假设您有一个 foreach 评估来检查文本中的每个单词。

foreach (word in words)
{
   if (*word is similar*)
   {
      word = "<span class='highlight'>" + word + "</span>";
   }
}

在你的 HTML / CSS

.highlight
{
   background-color: yellow;
}

我使用 LCS 获取公共子字符串(我知道它并不完美)并使用@Mithgroth 突出显示这些子字符串