如何减少 n-gram 特征?

How to reduce n-gram features?

我一直在处理文本处理中的问题。如果有人能帮助我,我将不胜感激。 我有包含 12,000 条评论记录的数据集。 当我 运行 n-gram 提取器对此进行提取时,我获得了 170,000 个唯一的 unigram + bigram,数量太多以至于机器学习算法处理时间太长。

我应该如何减少这些提取的特征的数量?有什么特别的算法什么的吗?

没有必要保留所有N-grrams。您应该按频率修剪 N-grams 的列表。例如,只考虑出现 40 次或更多次的 unigrams。修剪 bi-grams 的 cut-off 会更低。 tri-grams 等会更低。