用于翻译同形异义词的 Fasttext 对齐词向量
Fasttext aligned word vectors for translating homographs
Homograph是一个写法相同但意思不同的词,如下面句子中的对:
- 成功在于做出正确的决定。
- 在红绿灯
后右转
英语单词 "right" 在第一种情况下被翻译成瑞典语 "rätt",在第二种情况下被翻译成 "höger"。通过查看上下文(周围的单词)可以进行正确的翻译。
问题 1. 我想知道 fasttext 对齐词嵌入是否可以帮助将这些同形词或具有多种可能翻译的词翻译成另一种语言?
[编辑] 目标是而不是查询模型以获得正确的翻译。目标是在给出以下信息时选择正确的翻译:
- 目标语言中的两个(或多个)可能的翻译选项,例如 "rätt" 和 "höger"
- 源语言中周围的词
问题2.我加载了english pre-trained vectors model and the English aligned vector model。虽然两者都接受过维基百科文章的训练,但我注意到两个词之间的距离在某种程度上得到了保留,但数据集文件的大小(wiki.en.vec vs wiki.en.align.vec)明显不同(1GB)。如果我们只使用对齐的版本,那不是很有意义吗?对齐数据集未捕获哪些信息?
对于问题 1,我认为这些 'aligned' 向量可能有助于翻译同形异义词,但仍然面临任何标记只有一个向量的问题——即使该标记具有多种含义。
您是否假设您已经知道 right[en]
可以从某些外部 table 翻译成 rätt[se]
或 höger[se]
? (也就是说,你不是使用对齐的词向量作为翻译的主要手段,只是其他方法的辅助手段?)
如果是这样,一种可能有用的技术是查看 rätt[se]
或 höger[se]
中的哪一个更接近围绕您的特定实例 right[en]
的其他词。 (您可以计算每个词与 right[en]
的 n 个点内每个词的排名接近度,或者计算它们与 n[= 的平均值的余弦相似度例如,right[en]
周围有 40=] 个词。)
(你甚至可以使用 非对齐 词向量来做到这一点,如果你的更精确的词有多个,交替的, non-homograph/non-polysemous 英文翻译。对于例如,要确定 right[en]
的哪种含义更有可能,您可以使用 correct[en]
和 rightward[en]
的非对齐英语词向量 – rätt[se]
和 [ 的多义词较少相关=12=] – 检查与周围单词的相似性。)
可能会产生其他想法的文章是“Linear algebraic structure of word meanings”,令人惊讶的是,即使原始词向量训练是 不词义感知。 (他们模型中的 'atoms of discourse' 是否可以在 merged/aligned 多语言向量空间中同样找到,然后上下文词与不同原子的接近度是词义消歧的良好指南?)
对于问题2,你暗示对齐的单词集的大小更小。您是否检查过这是否只是因为它包含的单词较少?这似乎是最简单的解释,只要检查遗漏了哪些词,您就会知道自己丢失了什么。
Homograph是一个写法相同但意思不同的词,如下面句子中的对:
- 成功在于做出正确的决定。
- 在红绿灯 后右转
英语单词 "right" 在第一种情况下被翻译成瑞典语 "rätt",在第二种情况下被翻译成 "höger"。通过查看上下文(周围的单词)可以进行正确的翻译。
问题 1. 我想知道 fasttext 对齐词嵌入是否可以帮助将这些同形词或具有多种可能翻译的词翻译成另一种语言?
[编辑] 目标是而不是查询模型以获得正确的翻译。目标是在给出以下信息时选择正确的翻译:
- 目标语言中的两个(或多个)可能的翻译选项,例如 "rätt" 和 "höger"
- 源语言中周围的词
问题2.我加载了english pre-trained vectors model and the English aligned vector model。虽然两者都接受过维基百科文章的训练,但我注意到两个词之间的距离在某种程度上得到了保留,但数据集文件的大小(wiki.en.vec vs wiki.en.align.vec)明显不同(1GB)。如果我们只使用对齐的版本,那不是很有意义吗?对齐数据集未捕获哪些信息?
对于问题 1,我认为这些 'aligned' 向量可能有助于翻译同形异义词,但仍然面临任何标记只有一个向量的问题——即使该标记具有多种含义。
您是否假设您已经知道 right[en]
可以从某些外部 table 翻译成 rätt[se]
或 höger[se]
? (也就是说,你不是使用对齐的词向量作为翻译的主要手段,只是其他方法的辅助手段?)
如果是这样,一种可能有用的技术是查看 rätt[se]
或 höger[se]
中的哪一个更接近围绕您的特定实例 right[en]
的其他词。 (您可以计算每个词与 right[en]
的 n 个点内每个词的排名接近度,或者计算它们与 n[= 的平均值的余弦相似度例如,right[en]
周围有 40=] 个词。)
(你甚至可以使用 非对齐 词向量来做到这一点,如果你的更精确的词有多个,交替的, non-homograph/non-polysemous 英文翻译。对于例如,要确定 right[en]
的哪种含义更有可能,您可以使用 correct[en]
和 rightward[en]
的非对齐英语词向量 – rätt[se]
和 [ 的多义词较少相关=12=] – 检查与周围单词的相似性。)
可能会产生其他想法的文章是“Linear algebraic structure of word meanings”,令人惊讶的是,即使原始词向量训练是 不词义感知。 (他们模型中的 'atoms of discourse' 是否可以在 merged/aligned 多语言向量空间中同样找到,然后上下文词与不同原子的接近度是词义消歧的良好指南?)
对于问题2,你暗示对齐的单词集的大小更小。您是否检查过这是否只是因为它包含的单词较少?这似乎是最简单的解释,只要检查遗漏了哪些词,您就会知道自己丢失了什么。