Carrot2 文档相似度以及 tf-idf 矩阵中的有序文档索引如何?
Carrot2 documents similarity and how are the ordered documents indexes in the tf-idf matrix?
我正在尝试使用 carrot 确定两个文档之间的相似性。是否可以直接从框架中获取这种相似性?
此外,我一直在研究 tf-idf 矩阵,并意识到行对应于文档的词干和列。但是,如何识别哪个文档对应于哪一列?
例如,假设一个文档列表,列顺序将是列表中文档的顺序?
例如:
列出文档 = {doc1, doc2, doc3}
和
第 0 列 = doc1
列 1 = doc2
...
这是?
Carrot2 不使用文档间相似性的传统概念,因此您不会在那里找到它。您确实可以使用术语-文档矩阵来计算各种文档-文档相似度。
您假设术语-文档矩阵的列与输入列表中的文档的顺序相同,这是正确的。您可以检查 source code 以清除任何其他疑问。
我正在尝试使用 carrot 确定两个文档之间的相似性。是否可以直接从框架中获取这种相似性?
此外,我一直在研究 tf-idf 矩阵,并意识到行对应于文档的词干和列。但是,如何识别哪个文档对应于哪一列?
例如,假设一个文档列表,列顺序将是列表中文档的顺序?
例如:
列出文档 = {doc1, doc2, doc3}
和
第 0 列 = doc1 列 1 = doc2
...
这是?
Carrot2 不使用文档间相似性的传统概念,因此您不会在那里找到它。您确实可以使用术语-文档矩阵来计算各种文档-文档相似度。
您假设术语-文档矩阵的列与输入列表中的文档的顺序相同,这是正确的。您可以检查 source code 以清除任何其他疑问。