是否有预训练的 Gensim 短语模型？

Is there a pretrained Gensim phrase model?

是否有预训练的 Gensim 的 Phrases 模型？如果没有，是否可以使用预训练词嵌入进行逆向工程并创建短语模型？

我正在尝试将 GoogleNews-vectors-negative300.bin 与 Gensim 的 Word2Vec 一起使用。首先，我需要将我的单词映射到短语中，以便我可以从 Google 的预训练嵌入中查找它们的向量。

我搜索了 Gensim 的官方文档，但找不到任何信息。谢谢！

我不知道有人共享 Phrases 模型。任何此类模型都会对 preprocessing/tokenization 步骤和创建者使用的特定参数非常敏感。

除了 high-level 算法描述之外，我还没有看到 Google 对 tokenization/canonicalization/phrase-combination 对输入 GoogleNews 2013 的数据所做的确切选择word-vectors 已在任何地方记录。可以通过查看存在的标记来对预处理进行一些猜测，但我不知道有任何代码可以将类似的选择应用于其他文本。

您可以尝试模仿他们的 unigram 标记化，然后将 unigram 字符串推测性地组合成 ever-longer 多字母直到某个最大值，检查这些组合是否存在，如果不存在，则恢复为 unigram（或目前最大的组合）。如果天真地完成这可能会很昂贵，但如果真的很重要 - 特别是对于 more-frequent 单词的某些子集 - 因为 GoogleNews 集似乎遵守按降序列出单词的惯例，因此可以进行优化。

（总的来说，虽然它是一套快速简单的入门套装 word-vectors，但我认为 GoogleNews 有点 over-relied。它将缺少 words/phrases 和自 2013 年以来发展起来的新意义，以及它确实捕捉到的任何意义都由 2013 年之前的新闻文章决定......这可能与其他领域中的主导词义不匹配。如果你的领域不是专门的新闻，并且您有足够的数据，决定您自己的 domain-specific tokenization/combination 可能会表现更好。）

是否有预训练的 Gensim 短语模型？

Is there a pretrained Gensim phrase model?

python

machine-learning

phrase

gensim

word-embedding