Quanteda 合并 unigrams 和 bigrams

Quanteda merging unigrams and bigrams

我想试验在一个 DFM 中同时使用一元语法和二元语法是否可以改进我的文档分类。我想在一个 DFM 中同时创建 unigrams 和 bigrams。从那里,我可以得到我的 TF-IDF 加权 DFM,同时考虑单字母和双字母。可能,我可以分别创建一元和二元 dfms,然后我可以合并它们。但是,我想知道 quanteda 是否有更有效的方法来做到这一点。感谢您的回复。

从 quanteda 页面获取。它适用于类似这样的东西。

toks_skip <- tokens_ngrams(toks, n = 1:2)