Quanteda 合并 unigrams 和 bigrams

Question

我想试验在一个 DFM 中同时使用一元语法和二元语法是否可以改进我的文档分类。我想在一个 DFM 中同时创建 unigrams 和 bigrams。从那里，我可以得到我的 TF-IDF 加权 DFM，同时考虑单字母和双字母。可能，我可以分别创建一元和二元 dfms，然后我可以合并它们。但是，我想知道 quanteda 是否有更有效的方法来做到这一点。感谢您的回复。

Answer 1

从 quanteda 页面获取。它适用于类似这样的东西。

toks_skip <- tokens_ngrams(toks, n = 1:2)

Quanteda 合并 unigrams 和 bigrams

Quanteda merging unigrams and bigrams

text-mining

quanteda