是否推荐在word2vec算法中去除重复词?

Is it recommended to remove duplicate words in word2vec algorithm?

我有一个由 DNA 序列组成的数据,其中单词表示为长度为 6 的 kmers,句子表示为 DNA 序列。每个 DNA 序列有 80 kmers(单词)

我拥有的 kmers 列表大约有 130,000 kmers,但在删除重复元素后,我只有 4500 kmers。所以,这个巨大的差距让我对是否删除重复的 kmers 感到困惑。我的问题是,在这种情况下是否建议删除 word2vec 算法中重复的 kmers?

谢谢。

没有示例,不清楚 "removing the duplicate elements" 是什么意思。 (这是否意味着,当相同的标记连续出现两次时?还是一次出现两次 "sentence"?或者,由于我不熟悉您的数据在该域中的样子,所以完全不同?)

你说词汇表中有 130,000 个标记,但后来又增加了 4,500 个,这也令人困惑。通常 "vocabulary" 大小是唯一标记的数量。删除重复的标记不可能改变遇到的唯一标记的数量。

在自然语言 word2vec 的常用领域中,单词不经常重复 one-after-another。在某种程度上,他们有时可能——比如话语 "it's very very hot in here"——这并不是一个足够重要的案例,我注意到有人评论说 "very very" 与其他任何两个词的处理方式不同。

(如果一个语料库有一些 artificially-duplicated full-sentences,它 可能 是你想尝试丢弃 exact-duplicate-sentences。Word2vec 受益于 多样性 的不同 usage-examples。将同一个句子重复 10 次本质上只会超重那些训练示例——它几乎不如 10 个对比好,但仍然有效, 相同词的用法示例。)

您处于非自然语言的不同领域,具有不同的 co-occurrence 频率和不同的 end-goals。 Word2vec 可能被证明是有用的,但任何一般性 rules-of-thumb 或来自其他领域的推荐都不太可能有用。您应该以两种方式进行测试,以稳健可重复的方式评估最终任务的结果,并根据您的发现进行选择。