如何将数据集转换为 glove 或 word2vec 格式?
How can I Convert a dataset to glove or word2vec format?
我已经下载了我的 Twitter 存档,并想 运行 word2vec 在上面试验最相似的词、类比等。
但我卡在了第一步——如何转换给定的数据集/csv/文档,以便它可以输入到 word2vec?即,将数据转换为 glove/word2vec 格式的过程是什么?
通常 word2vec 和 GLoVe 算法的实现会执行以下一项或两项操作:
接受一个纯文本文件,其中标记由(一个或多个)空格分隔,文本一次被视为每个换行符分隔的行(行不是“太长” " - 通常,每行短文章或段落或句子)
有一些 language/library-specific 接口用于将文本(标记列表)作为 stream/iterable
提供给算法
Python Gensim 库为其 Word2Vec
class 提供了两种选择。
在将此类库应用于您自己的数据之前,您通常应该尝试通过一个或多个教程来了解所涉及步骤的工作概览,从原始数据到有趣的结果。而且,通过检查这些教程使用的格式——以及它们执行的将数据转换为您正在使用的库所需要的格式的额外步骤——您还将看到有关如何准备数据的想法。
我已经下载了我的 Twitter 存档,并想 运行 word2vec 在上面试验最相似的词、类比等。
但我卡在了第一步——如何转换给定的数据集/csv/文档,以便它可以输入到 word2vec?即,将数据转换为 glove/word2vec 格式的过程是什么?
通常 word2vec 和 GLoVe 算法的实现会执行以下一项或两项操作:
接受一个纯文本文件,其中标记由(一个或多个)空格分隔,文本一次被视为每个换行符分隔的行(行不是“太长” " - 通常,每行短文章或段落或句子)
有一些 language/library-specific 接口用于将文本(标记列表)作为 stream/iterable
提供给算法
Python Gensim 库为其 Word2Vec
class 提供了两种选择。
在将此类库应用于您自己的数据之前,您通常应该尝试通过一个或多个教程来了解所涉及步骤的工作概览,从原始数据到有趣的结果。而且,通过检查这些教程使用的格式——以及它们执行的将数据转换为您正在使用的库所需要的格式的额外步骤——您还将看到有关如何准备数据的想法。