用于 Word2Vec 模型测试的问题对(基本事实)数据集?
Question pairs (ground truth) datasets for Word2Vec model testing?
我正在寻找测试数据集来优化我的 Word2Vec 模型。我从 gensim 找到了一个很好的:
gensim/test/test_data/questions-words.txt
有谁知道其他类似的数据集吗?
谢谢!
重要的是要注意,实际上并没有 "ground truth" 词向量。您可以用它们完成一些有趣的任务,并且一些词向量的排列在特定任务上会比其他的更好。
而且,在一项任务上表现最佳的词向量——例如以 questions-words.txt
问题的风格进行类比解决——可能在另一项重要任务上表现不佳——比如为以下内容建模文本分类或信息检索。
也就是说,您可以使用与 questions-words.txt
相同的格式制作自己的测试数据。 Google 的原始 word2vec.c
版本,其中还包括一个用于将附近单词统计组合成多词短语的工具,还包括一个 questions-phrases.txt
文件,格式相同,可以使用测试为 'words' 类似构造的词向量,它们实际上是短的多词短语。
Python gensim
词向量支持包括一个额外的方法,evaluate_word_pairs()
for checking word-vectors not on analogy-solving but on conformance to collections of human-determined word-similarity-rankings. The documentation for that method includes a link to an appropriate test-set for that method, SimLex-999
,您可以在其他地方找到相同格式的其他测试集。
但是,同样,none 这些应该被认为是对词向量整体质量的绝对测试。对于您的特定项目对词向量的使用,最好的测试是您自己设计的一些可重复的特定于领域的评估分数,这与您的最终目标有着内在的相关性。
我正在寻找测试数据集来优化我的 Word2Vec 模型。我从 gensim 找到了一个很好的:
gensim/test/test_data/questions-words.txt
有谁知道其他类似的数据集吗?
谢谢!
重要的是要注意,实际上并没有 "ground truth" 词向量。您可以用它们完成一些有趣的任务,并且一些词向量的排列在特定任务上会比其他的更好。
而且,在一项任务上表现最佳的词向量——例如以 questions-words.txt
问题的风格进行类比解决——可能在另一项重要任务上表现不佳——比如为以下内容建模文本分类或信息检索。
也就是说,您可以使用与 questions-words.txt
相同的格式制作自己的测试数据。 Google 的原始 word2vec.c
版本,其中还包括一个用于将附近单词统计组合成多词短语的工具,还包括一个 questions-phrases.txt
文件,格式相同,可以使用测试为 'words' 类似构造的词向量,它们实际上是短的多词短语。
Python gensim
词向量支持包括一个额外的方法,evaluate_word_pairs()
for checking word-vectors not on analogy-solving but on conformance to collections of human-determined word-similarity-rankings. The documentation for that method includes a link to an appropriate test-set for that method, SimLex-999
,您可以在其他地方找到相同格式的其他测试集。
但是,同样,none 这些应该被认为是对词向量整体质量的绝对测试。对于您的特定项目对词向量的使用,最好的测试是您自己设计的一些可重复的特定于领域的评估分数,这与您的最终目标有着内在的相关性。