如何获得单词列表的三维向量嵌入
How to get three dimensional vector embedding for a list of words
有人要求我为一系列单词创建三维向量嵌入。尽管我了解什么是嵌入并且 word2vec
将能够创建向量嵌入,但我找不到向我展示如何创建 three 维向量(全部资源显示的维度比这多得多)。
我创建文件的格式是:
house 34444 0.3232 0.123213 1.231231
dog 14444 0.76762 0.76767 1.45454
格式为<token>\t<word_count>\t<vector_embedding_separated_by_spaces>
任何人都可以向我指出一个资源,告诉我如何在给定一些培训文本的情况下创建所需的文件格式吗?
一旦您决定了一种编程语言和 word2vec 库,它的文档可能会突出显示一个可配置的参数,让您可以指定它训练的向量的维数。因此,您只需将该参数从其典型值(如 100
或 300
)更改为 3
.
(但请注意,3 维词向量不太可能表现出高维向量的有趣和有用 属性。)
一旦你使用这样的库创建了内存中的向量,以你指定的格式写出它们就变成了一个文件 IO 问题,与 word2vec 本身无关。在典型的语言中,您会打开一个新文件进行写入,循环遍历正确打印每一行的数据,然后关闭文件。
(要从 Whosebug 获得更详细的答案,您需要选择一个特定的 language/library,展示您已经使用实际代码尝试过的内容,并展示 results/errors 如何实现未达到您的目标。)
有人要求我为一系列单词创建三维向量嵌入。尽管我了解什么是嵌入并且 word2vec
将能够创建向量嵌入,但我找不到向我展示如何创建 three 维向量(全部资源显示的维度比这多得多)。
我创建文件的格式是:
house 34444 0.3232 0.123213 1.231231
dog 14444 0.76762 0.76767 1.45454
格式为<token>\t<word_count>\t<vector_embedding_separated_by_spaces>
任何人都可以向我指出一个资源,告诉我如何在给定一些培训文本的情况下创建所需的文件格式吗?
一旦您决定了一种编程语言和 word2vec 库,它的文档可能会突出显示一个可配置的参数,让您可以指定它训练的向量的维数。因此,您只需将该参数从其典型值(如 100
或 300
)更改为 3
.
(但请注意,3 维词向量不太可能表现出高维向量的有趣和有用 属性。)
一旦你使用这样的库创建了内存中的向量,以你指定的格式写出它们就变成了一个文件 IO 问题,与 word2vec 本身无关。在典型的语言中,您会打开一个新文件进行写入,循环遍历正确打印每一行的数据,然后关闭文件。
(要从 Whosebug 获得更详细的答案,您需要选择一个特定的 language/library,展示您已经使用实际代码尝试过的内容,并展示 results/errors 如何实现未达到您的目标。)