TF-IDF/Cosine 相似度 - 相似度直方图

TF-IDF/Cosine Similarity - Similarity Histogram

我创建了一个 histogram with the similarity scores 语料库中的所有文档。分数是用 TF-IDF/Cosine 相似度计算的。请参阅包含的图片。我不是 100% 确定如何阅读图表。分数的紧凑性是否表明语料库以良好的方式密切相关或以不良的方式密切相关?还是我完全看错了?

tf = TfidfVectorizer(analyzer='word', ngram_range=(1, 2), min_df=5)
tfidf_matrix = tf.fit_transform(ds['clean_text'])
cosine_similarities = linear_kernel(tfidf_matrix, tfidf_matrix)

看直方图,文档相似度似乎没有那么集中(余弦相似度有界[0,1],你的直方图范围是~0.2-1)。这是好是坏取决于您对数据的期望,以及您稍后要对 TF-IDF 矩阵执行的操作。如果你有一个多样化的语料库(例如维基百科)那么你会期望一个广泛的范围并且如果你有一个狭窄的余弦相似性分数范围就会怀疑。但是,如果您的语料库来自一组高度相似的文档(例如 class 学生的读书报告)。

一般来说,相似度分数的分布更像是一个仅供参考的信息,而不是衡量数据集质量的指标。