如何为语料库中的文章分配权重以生成词嵌入(例如 word2vec)?

how to assign weights to articles in the corpus for generating word embedding (e.g. word2vec)?

我发现语料库中的某些文章比其他文章重要得多(例如,我更喜欢它们的措辞)。因此,我想在生成词向量的过程中,将他们在整个语料库中的 "weights" 增加。有没有办法实现这个?目前我能想到的解决办法是将比较重要的文章多次复制,加入到语料库中。但是,这对词嵌入过程有用吗?有没有更好的方法来实现这一目标?非常感谢!

我最熟悉的 word2vec 库,在 gensim for Python 中,没有超重某些文本的功能。但是,您简单地重复更重要的文本的想法应该可行。

不过请注意:

  • 如果文本在你的语料库中不连续重复,它可能会更好 - 分散重复的上下文,以便它们以交错的方式与其他不同的用法示例相遇

  • 该算法确实受益于不同的用法示例 - 重复相同的罕见示例 10 次远不及 10 次自然微妙对比的用法,以诱导连续渐变的种类 -这意味着人们想要从 word2vec

  • 您应该确保使用与您的最终目的相关的定量质量得分来测试您的超重策略,以确保它如您所愿地提供帮助。它可能会额外 code/training-effort 带来微不足道的好处,甚至会损害某些词向量的质量。