当文本中的单词不经常重复时,如何准备用于文本分类的特征向量?

How to prepare feature vectors for text classification when the words in the text is not frequently repeating?

我需要对一组电子邮件执行文本分类。但是我文本中的所有单词都非常稀疏,即每个单词相对于所有文档的频率都非常少。单词没有那么频繁地重复。由于要训练分类器,我认为以频率作为权重的文档术语矩阵是不合适的。你能给我建议我需要使用什么样的其他方法吗?

谢谢

真正的问题是,如果你的词太稀疏,学习的分类器将不会泛化到现实世界的数据。但是,有几种解决方法

1.) 使用更多数据。这有点简单。但是,您不仅可以添加标记数据,还可以在 半监督学习

中使用未标记数据

2.) 使用更多数据(b 部分)。您可以查看 迁移学习 设置。您可以在具有相似特征的大型数据集上构建分类器。这可能是推特流,然后将此分类器调整为您的域

3.) 正确处理处理管道。您的问题可能源于次优处理管道。你在做词干提取吗?在电子邮件中,单词 steming 应该映射到 stem。这可以通过使用与字典匹配的同义词进一步推进。