Error: Classification metrics can't handle a mix of multiclass-multioutput and multilabel-indicator targets

Question

总的来说，我是机器学习的新手。

我正在尝试进行多标签文本分类。我有这些文档的原始标签以及分类结果（使用 mlknn 分类器）表示为一个热编码（19000 文档 x 200 标签）。现在我正在尝试使用 f1_score 微观和宏观评估分类，但我收到此错误（第 3 行）ValueError: Classification metrics can't handle a mix of multiclass-multioutput and multilabel-indicator targets，我不知道如何解决它。这是我的代码：

1. y_true = np.loadtxt("target_matrix.txt")
2. y_pred = np.loadtxt("classification_results.txt")

3. print (f1_score(y_true, y_pred, average='macro'))
4. print (f1_score(y_true, y_pred, average='micro'))

我还尝试使用 cross_val_score 进行分类以立即获得评估，但运行进入另一个错误（来自 cross_val_score 行）：

File "_csparsetools.pyx", line 20, in scipy.sparse._csparsetools.lil_get1
File "_csparsetools.pyx", line 48, in scipy.sparse._csparsetools.lil_get1
IndexError: column index (11) out of bounds

这是我的代码：

X = np.loadtxt("docvecs.txt", delimiter=",")
y = np.loadtxt("target_matrix.txt", dtype='int')

cv_scores = []
mlknn = MLkNN(k=10)  
scores = cross_val_score(mlknn, X, y, cv=5, scoring='f1_micro')
cv_scores.append(scores)

任何一个错误的帮助都非常感谢，谢谢。

Answer 1

你能显示 y 的前几个元素吗？你在使用 scikit-multilearn 吗？另外，如果你可以使用 scikit-multilearn 的 0.1.0 候选版本，第二个错误很可能是 master 中修复的错误，并且计划在几天内发布新版本。

你可以通过pip获取master： pip uninstall -y scikit-multilearn pip install https://github.com/scikit-multilearn/scikit-multilearn/archive/master.zip

Answer 2

我手动创建了 y 数组，看来那是我的错误。我现在使用 MultiLabelBinarizer 创建它，如下例所示，现在可以使用了：

train_foo = [['sci-fi', 'thriller'],['comedy'],['sci-fi', 'thriller'],['comedy']]
mlb = MultiLabelBinarizer()
mlb_label_train = mlb.fit_transform(train_foo)

X = np.loadtxt("docvecs.txt", delimiter=",")
cv_scores = []
mlknn = MLkNN(k=3) 
scores = cross_val_score(mlknn, X, mlb_label_train, cv=5, scoring='f1_macro')
cv_scores.append(scores)

您可以找到 MultiLabelBinarizer here 的文档。

Error: Classification metrics can't handle a mix of multiclass-multioutput and multilabel-indicator targets

Error: Classification metrics can't handle a mix of multiclass-multioutput and multilabel-indicator targets

python

cross-validation

multilabel-classification