tf-idf 实现
tf-idf implementation
我正在对 2 个字符串进行抄袭检测,为此我使用 "Levenshtein Distance Algorithm" 来查找抄袭百分比,并使用 "tf idf" 来查找关键字。但是现在我在突出显示相似文本时遇到了问题,我正在考虑使用关键字作为种子来形成集群并突出显示该集群,但这似乎需要做很多工作。任何人都可以指导我如何去做,或任何其他方式。请帮助我完成我的大学项目。
假设你有自己的方法在文本中找到相似的词,你可以在你想要标记的词周围添加一个span标签,给它们 class 属性,并将 CSS class 设置为 background-color:yellow;
我假设您有一个 foreach 评估来检查文本中的每个单词。
foreach (word in words)
{
if (*word is similar*)
{
word = "<span class='highlight'>" + word + "</span>";
}
}
在你的 HTML / CSS
.highlight
{
background-color: yellow;
}
我使用 LCS 获取公共子字符串(我知道它并不完美)并使用@Mithgroth 突出显示这些子字符串
我正在对 2 个字符串进行抄袭检测,为此我使用 "Levenshtein Distance Algorithm" 来查找抄袭百分比,并使用 "tf idf" 来查找关键字。但是现在我在突出显示相似文本时遇到了问题,我正在考虑使用关键字作为种子来形成集群并突出显示该集群,但这似乎需要做很多工作。任何人都可以指导我如何去做,或任何其他方式。请帮助我完成我的大学项目。
假设你有自己的方法在文本中找到相似的词,你可以在你想要标记的词周围添加一个span标签,给它们 class 属性,并将 CSS class 设置为 background-color:yellow;
我假设您有一个 foreach 评估来检查文本中的每个单词。
foreach (word in words)
{
if (*word is similar*)
{
word = "<span class='highlight'>" + word + "</span>";
}
}
在你的 HTML / CSS
.highlight
{
background-color: yellow;
}
我使用 LCS 获取公共子字符串(我知道它并不完美)并使用@Mithgroth 突出显示这些子字符串