为 fastText 设置 char n-gram 的最大长度

Setting max length of char n-grams for fastText

我想根据这个对比教程来对比word2vec和fasttext模型。 https://github.com/jayantj/gensim/blob/fast_text_notebook/docs/notebooks/Word2Vec_FastText_Comparison.ipynb

据此,当我们将 char n-gram 的最大长度设置为零时,fastText 模型的语义准确性会提高,这样 fastText 开始表现得几乎类似于 word2vec。它忽略了 ngram。

但是,我找不到任何有关在加载 fastText 模型时如何设置此参数的信息。关于如何做到这一点有什么想法吗?

参数在训练时设置 - 然后使用该参数构建模型,并依赖于该参数进行解释。因此,您通常不会在加载已训练模​​型时更改它,并且 gensim(或原始 FastText)中没有 API 来更改已训练模型的设置。

(通过查看源代码并直接篡改加载的模型状态,您 可能 能够近似忽略已训练的 char-ngram 的效果——但是这将是一种新颖的模式,与您链接的笔记本中评估的非 ngrams 训练模式完全不同。它可能会产生有趣或糟糕的结果——不尝试就无法判断。)