如何创建具有字符 n-gram 特征的 tf-idf 矩阵?

How can I create a tf-idf matrix with character n-gram features?

如何使用 text2vec 包创建具有字符 n-gram 特征的 tdf-idf 矩阵?

怎么样:

library(text2vec)
data("movie_review")
it = itoken(movie_review$review, tolower, char_tokenizer)
v = create_vocabulary(it, ngram = c(3, 3), sep_ngram = "_")
dtm = create_dtm(it, vectorizer = vocab_vectorizer(v))

PS 以后请尝试提供一些可重现的示例,说明您是如何尝试解决问题的。