如何减少 n-gram 特征？

How to reduce n-gram features?

我一直在处理文本处理中的问题。如果有人能帮助我，我将不胜感激。我有包含 12,000 条评论记录的数据集。当我运行 n-gram 提取器对此进行提取时，我获得了 170,000 个唯一的 unigram + bigram，数量太多以至于机器学习算法处理时间太长。

我应该如何减少这些提取的特征的数量？有什么特别的算法什么的吗？

没有必要保留所有N-grrams。您应该按频率修剪 N-grams 的列表。例如，只考虑出现 40 次或更多次的 unigrams。修剪 bi-grams 的 cut-off 会更低。 tri-grams 等会更低。