我想知道混淆矩阵步骤

I want to know the Confusion matrix Steps

我已经完成了具有余弦相似度的计数向量化器。接下来,我想让混淆矩阵得到精度和准确度

但是我不知道该怎么做 非常感谢您的回答,即使它们只是步骤

让我知道如果描述错误/缺少描述问题

code Count Vectorizer

    c_vectorizer = CountVectorizer()
    c_vectorized = c_vectorizer.fit_transform(dataset_with_tags.movie_tags)
    c_vectorized_m2m = pd.DataFrame(cosine_similarity(c_vectorized))
    c_vectorized_m2m.head(10)

    c_vectorized_m2m_similarity = c_vectorized_m2m.stack().reset_index()
    c_vectorized_m2m_similarity.columns = ['first_movie', 'second_movie', 'similarity_score']
    c_vectorized_m2m_similarity.head(10)

您似乎对 混淆矩阵感到困惑:当您可以比较 [=] 的实际值与预测值 时使用它23=]class化问题,从而为您提供关于 类别 是否正确识别的绝对事实 (TRUE/FALSE)。例如如何 generate a confusion matrix from the resultswith a classifier.

https://en.wikipedia.org/wiki/Confusion_matrix

相似度矩阵不进行分类,它们只是为您提供从 0 到 1 的连续值,表示两个事物的相似程度。 没有class化,因此不能使用混淆矩阵

是否要使用 相似度矩阵(2 个项目有多相似)或 classifier(例如是否一部电影是“喜剧”或“戏剧”,电影可以有多种类型,例如“浪漫喜剧”,所以你需要一个多 class classifier),你 需要一些测试数据来评估模型的性能:

  • 相似度矩阵:电影列表 similar/dissimilar 并且期望您的矩阵 return 值分别接近 1/0
  • 分类器:假设数据集中的 movie_tags 是准确的,您可以使用它们来训练 class 分类器,并预测电影标签不在你的数据集中(你以后总是可以使用相似度矩阵来根据那些预测的标签推荐相似的电影)。