从公开可用的词嵌入中提取更有意义的词
Extract more meaningful words from publicly available word embedding
我有两个公开可用的词嵌入,例如 Glove 和 Google Word2vec。
然而,在他们的词汇表中,有太多拼写错误的词或垃圾词(例如##AA##、adirty 等)。为了避免这个词,我想提取高频词(例如前50000个词),因为我认为相对高频的词具有正常形式。
所以,我想知道是否有一种方法可以在上述两个预训练词嵌入中找到词频。如果没有,我想知道是否有一些技术可以排除这些词。
GoogleNews 向量集不包含频率信息,但似乎确实按照从最频繁到最不频繁的顺序排序。因此,如果您将加载它的代码更改为只加载前 N 个词,您应该会获得 N 个最常用的词。
(用于训练或使用词向量的 Python gensim 库将此作为 load_word2vec_format()
函数的 limit
选项。)
GLoVe 可能遵循相同的约定——查看文件中的词序应该会给出一个好主意。
我有两个公开可用的词嵌入,例如 Glove 和 Google Word2vec。 然而,在他们的词汇表中,有太多拼写错误的词或垃圾词(例如##AA##、adirty 等)。为了避免这个词,我想提取高频词(例如前50000个词),因为我认为相对高频的词具有正常形式。
所以,我想知道是否有一种方法可以在上述两个预训练词嵌入中找到词频。如果没有,我想知道是否有一些技术可以排除这些词。
GoogleNews 向量集不包含频率信息,但似乎确实按照从最频繁到最不频繁的顺序排序。因此,如果您将加载它的代码更改为只加载前 N 个词,您应该会获得 N 个最常用的词。
(用于训练或使用词向量的 Python gensim 库将此作为 load_word2vec_format()
函数的 limit
选项。)
GLoVe 可能遵循相同的约定——查看文件中的词序应该会给出一个好主意。