如何衡量在另一种语言上训练的 Word2vec 模型的准确性?

How to measure the accuracy of Word2vec model Trained on another language?

我训练的 word2vec 模型不是针对英语而是针对亚洲语言 'Sinhala'。在后期阶段,我将使用这个经过训练的模型来获取句子的相似性,以检测僧伽罗语文档中的剽窃行为。 请向我解释如何衡量受过训练的 model.I'' 大学生的准确性。我以前对这些东西一无所知。

没有通用的 word2vec 模型质量衡量标准或 'accuracy'。

普遍报道的 "accuracy" 通常基于 Google 在其原始 word2vec 论文(并包含在其源代码发布中)中使用的一组英语类比问题。参见示例:

https://github.com/tmikolov/word2vec/blob/master/questions-words.txt

要对另一种语言进行类似的计算,您需要为该语言提供一组类似的评估问题。我不知道僧伽罗语或其他语言的此类问题的任何集合,因此您可能必须自己查找或创建它。 (您可以创建相同格式的备用文件,并使用现有的评估方法,指定您的备用文件。)