LDA 主题建模应该使用 bi-gram 和 tri-gram 吗?
Should bi-gram and tri-gram be used in LDA topic modeling?
我在网上阅读了几篇关于 LDA 主题建模的帖子 (here and here)。他们都只使用一元语法。我想知道为什么 bi-grams 和 tri-grams 不用于 LDA 主题建模?
这是一个规模问题。如果你有 1000 种类型(即“字典词”),你可能最终(在最坏的情况下,这不会发生)有 1,000,000 个双字母组和 1,000,000,000 个三字母组。这些数字很难管理,尤其是当您在现实文本中有更多类型时。
accuracy/performance 中的收益不会超过此处的计算成本。
我在网上阅读了几篇关于 LDA 主题建模的帖子 (here and here)。他们都只使用一元语法。我想知道为什么 bi-grams 和 tri-grams 不用于 LDA 主题建模?
这是一个规模问题。如果你有 1000 种类型(即“字典词”),你可能最终(在最坏的情况下,这不会发生)有 1,000,000 个双字母组和 1,000,000,000 个三字母组。这些数字很难管理,尤其是当您在现实文本中有更多类型时。
accuracy/performance 中的收益不会超过此处的计算成本。