文本挖掘中的特征数量

Number of features in text mining

我正在尝试制作一个基于文本挖掘的预测模型。我很困惑我应该在我的模型中设置多少特征。我的分析中有 1000 个文档(因此语料库大约需要 700 个)。语料库中的术语数量约为 20 000,因此它超过了文档数量 (P >> N)。拥有这么多功能还有意义吗?

HashingTF 方法中的特征数应该大于语料库中的术语总数?或者我应该把它变小(比如 512 个特征?)

我有点懵

假设你说的是只使用一元组作为特征,你是对的,我们想要 p < n。 (这里不引用来源,因为你似乎知道这意味着什么。)

最后,要实现 p < n,您可以

  1. select 个特征数>=k。测量各种 k 和 select 最佳 k 的性能,或-

  2. 使用所有特征,但使用 L1 正则化。

如果你像你提到的那样使用散列,你应该将特征数设置为小于 512 因为 -

  1. n=700 和 p=512 仍然偏斜。
  2. 通常,重要的词很少。在您的情况下,它甚至可能小于 50。您可以尝试 number of hash buckets = {10, 20, 50, 100, 500, 1000} 并选择最好的一个。

祝你好运!