文本分类-标签预处理

Text Classification - Label Pre Process

我有一个数据集,其中包含超过 100 万条客户与呼叫中心互动的观察结果。文本是由接听电话的代表自由编写的文本。文本格式不正确,语法也不正确(很多简写)。 None 的自由文本在数据上有一个标签,因为我不知道要提供什么标签。

鉴于数据的大小,随机抽样数据(以提供高水平的置信度)是否是确定要创建哪些标签的合理第一步?是否可以不必从数据中手动标记 400 多个随机观察值,或者是否没有其他方法来预处理数据以确定用于分类的一组好的标签?

感谢有关此问题的任何帮助。

手动注释是一个不错的选择,因为您对与您的标签相对应的理想文档有很好的想法。

但是,对于大型数据集,我建议您将 LDA 拟合到文档并查看生成的主题,这将使您对可用于文本分类的标签有一个很好的了解。

您还可以将 LDA 用于 文本分类 最终通过找出标签的代表性文档,然后通过相似性度量(例如余弦)找到与该文档最接近的文档。

或者,一旦您了解了标签,您也可以在没有任何人工干预的情况下使用 LDA 分配它们,但这样您将只能进行无监督学习。

希望对您有所帮助!

P.S。 - 务必在 pre-processing 阶段删除所有停用词并使用词干分析器将相似王示例(管理、管理、管理)的词组合在一起。

正文Pre-Processing: 将所有文本转换为小写,标记为 unigrams,删除所有停用词,使用词干分析器将标记标准化为它的基本词。

我可以想到两种对文档进行分类的方法a.k.a。您所说的自由文本。每个自由文本是一个文档:

1) 监督分类 花一些时间随机挑选一些文档样本并为它们分配一个类别。执行此操作,直到每个类别有多个文档并且涵盖了您要预测的所有类别。

接下来,根据该文本创建一个 Tf-Idf 矩阵。 Select 前 K 个特征(调整 K 的值以获得最佳结果)。或者,您可以使用 SVD 通过将相关特征合并为一个来减少特征数量。请记住,您可以使用其他功能,如客户服务主管的部门和许多其他功能,也可以作为预测器。现在训练机器学习模型并对其进行测试。

2) 无监督学习: 如果您知道输出变量中有多少个类别,则可以使用该数字作为要创建的聚类数。使用上述技术中的 Tf-Idf 向量并创建 k 个簇。从每个簇中随机挑选一些文档,并决定这些文档属于哪个类别。假设您选择了 5 个文档并注意到它们属于类别 "Wanting Refund"。将此集群中的所有文档标记为 "Wanting Refund"。对所有剩余的集群执行此操作。

无监督学习的好处是省去了pre-classification和数据准备的痛苦,但要提防无监督学习。准确性可能不如监督学习。

解释的 2 方法是对可以做什么的抽象概述。现在您有了想法,请阅读更多有关主题的内容并使用像 rapidminer 这样的工具来更快地完成您的任务。