使用机器学习对大文本进行分类

categorize large text using machine learning

我有一个很大的 xls 文档，其中每一行都包含一个问题 id、它的描述和它的 expl 类别：类别 1- A- a1

我正在尝试构建一个机器学习模型来帮助我根据类别对这份文档进行分类。目标是对于每个新条目（又名新问题描述），我们将能够定义其各自类别的模型。

约束条件：我有超过 10 个类别，它们也是分层的（类别 1 有不同的子类别，每个子类别有不同的子类别）。我在想层次分类或多类分类但不能说。

描述功能是一个长文本。我正在考虑多项逻辑回归，但我读到它需要数值数据。我是否必须制作文档中使用的所有单词的字典才能为其赋予数值？这是一个正确的选择吗？

我还想获得每个新条目的分数以对最近的类进行分类（对于新描述 X ，类别 2-B-b1 给出 80% 的分数）

一个好的方法是将 .xls 文件转换为 pandas 数据帧并使用 fasttext https://fasttext.cc/ 创建文本分类模型，任何新文本都将被分类到其各自的类别。请参阅 https://github.com/facebookresearch/fastText 以获取正确的文档。

您可以使用的策略之一是伯努利朴素贝叶斯 (https://en.wikipedia.org/wiki/Naive_Bayes_classifier)。

这是一个简单的数学方程式，可让您将问题简化为每个类别的单词频率的简单列表。

一旦您为已知属于适当类别的文本建立了有意义的词频基线，该公式将能够 return 新文本在每个类别中的匹配概率。

这可以给出一个非常大的单词x类别矩阵，但是每个元素的处理非常简单。根据您的数量和性能要求，可以对公式进行优化，以将计算限制在文本中实际存在的单词上，以对与已看到的其他单词相关联的因素进行分类和跳过之前但没有出现在文本中（如果伯努利分类器与您的解决方案相关，我可以详细说明）。请注意，Python 中可能存在分类器的现有实现（我尚未检查）。

使用机器学习对大文本进行分类

categorize large text using machine learning

python

text

classification

machine-learning

text-classification