是否有预训练的 Gensim 短语模型?

Is there a pretrained Gensim phrase model?

是否有预训练的 GensimPhrases 模型?如果没有,是否可以使用预训练词嵌入进行逆向工程并创建短语模型?

我正在尝试将 GoogleNews-vectors-negative300.bin 与 Gensim 的 Word2Vec 一起使用。首先,我需要将我的单词映射到短语中,以便我可以从 Google 的预训练嵌入中查找它们的向量。

我搜索了 Gensim 的官方文档,但找不到任何信息。谢谢!

我不知道有人共享 Phrases 模型。任何此类模型都会对 preprocessing/tokenization 步骤和创建者使用的特定参数非常敏感。

除了 high-level 算法描述之外,我还没有看到 Google 对 tokenization/canonicalization/phrase-combination 对输入 GoogleNews 2013 的数据所做的确切选择word-vectors 已在任何地方记录。可以通过查看存在的标记来对预处理进行一些猜测,但我不知道有任何代码可以将类似的选择应用于其他文本。

您可以尝试模仿他们的 unigram 标记化,然后将 unigram 字符串推测性地组合成 ever-longer 多字母直到某个最大值,检查这些组合是否存在,如果不存在,则恢复为 unigram(或目前最大的组合)。如果天真地完成这可能会很昂贵,但如果真的很重要 - 特别是对于 more-frequent 单词的某些子集 - 因为 GoogleNews 集似乎遵守按降序列出单词的惯例,因此可以进行优化。

(总的来说,虽然它是一套快速简单的入门套装 word-vectors,但我认为 GoogleNews 有点 over-relied。它将缺少 words/phrases 和自 2013 年以来发展起来的新意义,以及它确实捕捉到的任何意义都由 2013 年之前的新闻文章决定......这可能与其他领域中的主导词义不匹配。如果你的领域不是专门的新闻,并且您有足够的数据,决定您自己的 domain-specific tokenization/combination 可能会表现更好。)