如何衡量在另一种语言上训练的 Word2vec 模型的准确性？

How to measure the accuracy of Word2vec model Trained on another language?

我训练的 word2vec 模型不是针对英语而是针对亚洲语言 'Sinhala'。在后期阶段，我将使用这个经过训练的模型来获取句子的相似性，以检测僧伽罗语文档中的剽窃行为。请向我解释如何衡量受过训练的 model.I'' 大学生的准确性。我以前对这些东西一无所知。

没有通用的 word2vec 模型质量衡量标准或 'accuracy'。

普遍报道的 "accuracy" 通常基于 Google 在其原始 word2vec 论文（并包含在其源代码发布中）中使用的一组英语类比问题。参见示例：

要对另一种语言进行类似的计算，您需要为该语言提供一组类似的评估问题。我不知道僧伽罗语或其他语言的此类问题的任何集合，因此您可能必须自己查找或创建它。（您可以创建相同格式的备用文件，并使用现有的评估方法，指定您的备用文件。）