当文本中的单词不经常重复时，如何准备用于文本分类的特征向量？

How to prepare feature vectors for text classification when the words in the text is not frequently repeating?

我需要对一组电子邮件执行文本分类。但是我文本中的所有单词都非常稀疏，即每个单词相对于所有文档的频率都非常少。单词没有那么频繁地重复。由于要训练分类器，我认为以频率作为权重的文档术语矩阵是不合适的。你能给我建议我需要使用什么样的其他方法吗？

谢谢

真正的问题是，如果你的词太稀疏，学习的分类器将不会泛化到现实世界的数据。但是，有几种解决方法

1.) 使用更多数据。这有点简单。但是，您不仅可以添加标记数据，还可以在 半监督学习

中使用未标记数据

2.) 使用更多数据（b 部分）。您可以查看 迁移学习 设置。您可以在具有相似特征的大型数据集上构建分类器。这可能是推特流，然后将此分类器调整为您的域

3.) 正确处理处理管道。您的问题可能源于次优处理管道。你在做词干提取吗？在电子邮件中，单词 steming 应该映射到 stem。这可以通过使用与字典匹配的同义词进一步推进。