Word2Vec 在基于文本的抄袭检测中是否比 WordNet 或任何其他词嵌入(如 GloVe、fastText 等)更有效?

Will Word2Vec be more efficient in text based Plagiarism detection than WordNet or any other word embeddings like GloVe, fastText etc?

我是Word2Vec的初学者,刚开始从网上学习word2vec。我已经完成了 Quora 和 Whosebug 中几乎所有的问题,但没有从前面的问题中得到任何答案。所以我的问题是- 1。是否可以将 word2vec 应用于抄袭检测? 2. 如果没有。 1 是可能的,那么 Word2Vec 在基于文本的抄袭检测中是否会比 WordNet 或任何其他词嵌入(如 GloVe、fastText 等)更有效? 提前致谢。

是的,这些 "dense embedding" 词义模型(如 word2vec)可能对剽窃检测很有用。 (它们也可能有助于混淆简单检测器的剽窃,因为它们可以协助对现有文本进行自动转换,从而在保持含义相似的同时更改单词。)

只有通过在特定系统中进行测试并进行定量评估,您才能确定它的工作情况,或者特定嵌入是否比 WordNet 之类的更好或更差。

在 word2vec、fastttext 和 GloVE 中,结果可能非常相似——它们都使用大致相同的信息(滑动上下文中的单词共现 window)来制作最大预测词向量– 所以它们在相似的训练数据下表现得非常相似。

任何差异都很细微——非 GLoVe 选项可能更适用于非常大的词汇表; fasttext 在某些模式下本质上是 word2vec,但增加了新的选项,用于建模子词 ngram(然后可以帮助为未来的词汇外词创建比随机向量更好的向量)或优化向量以解决分类问题。

但是,如果训练过程针对您的任务进行了类似的元优化,那么可以使用大量训练数据进行训练的已知单词的向量在能力上将非常相似。