文档分类:预处理和多标签
Document classification: Preprocessing and multiple labels
我对单词表示算法有疑问:
word2Vec、doc2Vec 和 Tf-IDF 算法中哪一个更适合处理文本分类任务?
我在监督学习分类中使用的语料库由多个句子的列表组成,既有短句也有长句。正如 this thread 中所讨论的,doc2vec 与 word2vec 的选择是文档长度的问题。至于Tf-Idf vs. word embedding,更多的是文本表示的问题。
我的另一个问题是,如果对于同一个语料库我有多个标签 link 到其中的句子怎么办?如果我为同一个句子创建多个entries/labels,它会影响最终分类算法的决定。我怎样才能告诉模型每个标签对于文档的每个句子来说都是相等的?
提前谢谢你,
您应该尝试多种将句子变成 'feature vectors' 的方法。没有硬性规定;什么最适合您的项目将在很大程度上取决于您的特定数据、问题域和分类目标。
(不要从其他答案(例如您链接的关于文档相似性而非分类的答案)中推断准则作为您项目的最佳实践。)
首先,您可能需要关注数据的一些简单 'binary classification' 方面。例如,选择一个标签。对所有文本进行训练,只是试图预测该标签是否适用。
当你有了这些工作,你就了解了每个步骤——语料库准备、文本处理、特征向量化、分类训练、分类评估——然后你可以尝试 extending/adapting 这些步骤来单标签分类(每个文本应该只有一个唯一标签)或多标签分类(每个文本可能有任意数量的组合标签)。
我对单词表示算法有疑问: word2Vec、doc2Vec 和 Tf-IDF 算法中哪一个更适合处理文本分类任务? 我在监督学习分类中使用的语料库由多个句子的列表组成,既有短句也有长句。正如 this thread 中所讨论的,doc2vec 与 word2vec 的选择是文档长度的问题。至于Tf-Idf vs. word embedding,更多的是文本表示的问题。
我的另一个问题是,如果对于同一个语料库我有多个标签 link 到其中的句子怎么办?如果我为同一个句子创建多个entries/labels,它会影响最终分类算法的决定。我怎样才能告诉模型每个标签对于文档的每个句子来说都是相等的?
提前谢谢你,
您应该尝试多种将句子变成 'feature vectors' 的方法。没有硬性规定;什么最适合您的项目将在很大程度上取决于您的特定数据、问题域和分类目标。
(不要从其他答案(例如您链接的关于文档相似性而非分类的答案)中推断准则作为您项目的最佳实践。)
首先,您可能需要关注数据的一些简单 'binary classification' 方面。例如,选择一个标签。对所有文本进行训练,只是试图预测该标签是否适用。
当你有了这些工作,你就了解了每个步骤——语料库准备、文本处理、特征向量化、分类训练、分类评估——然后你可以尝试 extending/adapting 这些步骤来单标签分类(每个文本应该只有一个唯一标签)或多标签分类(每个文本可能有任意数量的组合标签)。