有没有一种方法可以使用 load_word2vec_format 更快地加载 wiki-fasttext 模型

Question

使用 gensim 库加载 wiki-fasttext 模型需要 6 分钟。

我知道缓存模型的方法，但我正在寻找加速初始模型加载的方法。具体api如下：

en_model = KeyedVectors.load_word2vec_format(os.path.join(root_dir, model_file))

诚然，wiki-fasttext 是一个非常大的模型，但是我已经加载了多种语言的相同模型。

Answer 1

您可以尝试使用 limit=vector_num 参数从文件中加载 vector_num 个词向量。您不会加载所有矢量，但可以加快加载过程。

Is there a way to load the wiki-fasttext model faster with load_word2vec_format