当一些书有多种类型时,你如何按类型(使用深度学习)对书籍进行分类?

How do you classify books by genre (using deep learning) when some books have multiple genres?

我正在尝试构建一个神经网络来查看一本书的文本并猜测这本书的类型。当每本书只有一种类型时,我可以很好地训练网络。当一本书与多种类型相关联时,是否有一种好的方法来训练网络?

我尝试使用 sklearn 中的基本 SGDClassifier。它与数据集配合得很好,其中每个 book/block 文本都与一种类型相关联。不幸的是,我不知道如何给它一个数据集,其中每个 book/block 文本都与多种类型相关联。

这是我用于上下文的基本代码:

from sklearn.linear_model import SGDClassifier

sgd = Pipeline([('vect', CountVectorizer()),

                ('tfidf', TfidfTransformer()),

                ('clf', SGDClassifier('basic parameters')),

               ])

sgd.fit(x_train, y_train)

y_pred = sgd.predict(x_test)

有谁知道解决这个问题的好方法吗?谁能link我给个聪明人已经解决的地方?

这个问题应该在 stats.stackexchange.com 上提出,但我还是会尽力回答。你这里有一个多标签 "classification problem"。假设你有 3 种类型 A、B 和 C,你可以做的是考虑这 3 种类型的每个组合 a class,你将得到以下 classes [0 0 0],[1 0 0 ]、[0 1 0]、[0 0 1]、[1 1 0]、[1 0 1]、[0 1 1]。 [1 1 1] 与 [1 0 1] 例如是一本 A 和 C 的书。

这些链接应该可以帮助您理解和处理您的问题

https://towardsdatascience.com/journey-to-the-center-of-multi-label-classification-384c40229bff https://towardsdatascience.com/multi-label-classification-and-class-activation-map-on-fashion-mnist-1454f09f5925