如何获得单词列表的三维向量嵌入

How to get three dimensional vector embedding for a list of words

有人要求我为一系列单词创建三维向量嵌入。尽管我了解什么是嵌入并且 word2vec 将能够创建向量嵌入,但我找不到向我展示如何创建 three 维向量(全部资源显示的维度比这多得多)。

我创建文件的格式是:

house    34444     0.3232 0.123213 1.231231
dog    14444    0.76762 0.76767 1.45454

格式为<token>\t<word_count>\t<vector_embedding_separated_by_spaces>

任何人都可以向我指出一个资源,告诉我如何在给定一些培训文本的情况下创建所需的文件格式吗?

一旦您决定了一种编程语言和 word2vec 库,它的文档可能会突出显示一个可配置的参数,让您可以指定它训练的向量的维数。因此,您只需将该参数从其典型值(如 100300)更改为 3.

(但请注意,3 维词向量不太可能表现出高维向量的有趣和有用 属性。)

一旦你使用这样的库创建了内存中的向量,以你指定的格式写出它们就变成了一个文件 IO 问题,与 word2vec 本身无关。在典型的语言中,您会打开一个新文件进行写入,循环遍历正确打印每一行的数据,然后关闭文件。

(要从 Whosebug 获得更详细的答案,您需要选择一个特定的 language/library,展示您已经使用实际代码尝试过的内容,并展示 results/errors 如何实现未达到您的目标。)