LDA 主题建模应该使用 bi-gram 和 tri-gram 吗？

Should bi-gram and tri-gram be used in LDA topic modeling?

我在网上阅读了几篇关于 LDA 主题建模的帖子 (here and here)。他们都只使用一元语法。我想知道为什么 bi-grams 和 tri-grams 不用于 LDA 主题建模？

这是一个规模问题。如果你有 1000 种类型（即“字典词”），你可能最终（在最坏的情况下，这不会发生）有 1,000,000 个双字母组和 1,000,000,000 个三字母组。这些数字很难管理，尤其是当您在现实文本中有更多类型时。

accuracy/performance 中的收益不会超过此处的计算成本。