Non English Word Embedding 来自 English Word Embedding

Non English Word Embedding from English Word Embedding

如何从英语词嵌入生成非英语(法语、西班牙语、意大利语)词嵌入?

为非英语单词生成高质量词嵌入的最佳方法是什么。

字词可能包括 (samsung-galaxy-s9)

How can i generate non-english (french , spanish , italian ) word embedding from english word embedding ?

你真的不能。除非你有意思完全相同的词。如果您知道国王、王后、女人和男人的法语单词,您可以为这些单词嵌入完全相同的英语单词。它们将显示与英语单词相同的句法和语义属性。但是你不能真正使用英语嵌入来为不同的语言制作嵌入。

What are the best ways to generate high quality word embedding for non - english words

英文单词和非英文单词可以一视同仁。将您的非英语单词表示为 strings/tokens 并训练 w2v 模型。为此使用 gensim。你必须为你想要的语言找到一个庞大的语料库。然后你将不得不用这个庞大的语料库训练你的模型几个时期。完毕。或者,以您所需的语言查找现有模型。

Words may include (samsung-galaxy-s9)

除非你的语料库有像 "samsung-galaxy-s9" 这样的词,否则你的模型不会知道它的意思。使用语料库,它可能在您希望使用嵌入的域中包含更多单词。

对于非英文单词,你可以尝试使用双语词典来翻译带嵌入向量的英文单词。

您需要大型语料库才能生成高质量的词嵌入。对于非英语,需要在输入双语语料库的原始w2v损失中加入双语约束。

您可以把复合词看成一个整体,也可以根据您的应用拆分。