Word2vec 是泛化算法还是记忆算法?
Word2vec is a Generalization or memorization algorithm?
我需要知道 word2vec 是像所有 ML 算法一样的泛化算法还是像 KNN 这样的记忆算法?
因为我们有两种基于模型的算法和基于内存的算法,word2vec 在用于 most_similar_items
时属于哪个类别
让我将泛化定义为已完成训练的模型在整个输入范围内有效预测的能力,包括不属于训练一部分的输入。从这个角度来看,Word2Vec 无法预测不属于训练数据集的单词,因为它根本不会在其上下文上进行训练来创建嵌入。要成为一种泛化方法,它需要能够预测不属于训练数据集的输入。
Word2Vec 模型维护了一个字典对应的词embedding/vector。总之,不能对未知词进行预测。这是 fastText 模型和 Word2Vec 之间的重要区别之一。
我需要知道 word2vec 是像所有 ML 算法一样的泛化算法还是像 KNN 这样的记忆算法? 因为我们有两种基于模型的算法和基于内存的算法,word2vec 在用于 most_similar_items
时属于哪个类别让我将泛化定义为已完成训练的模型在整个输入范围内有效预测的能力,包括不属于训练一部分的输入。从这个角度来看,Word2Vec 无法预测不属于训练数据集的单词,因为它根本不会在其上下文上进行训练来创建嵌入。要成为一种泛化方法,它需要能够预测不属于训练数据集的输入。
Word2Vec 模型维护了一个字典对应的词embedding/vector。总之,不能对未知词进行预测。这是 fastText 模型和 Word2Vec 之间的重要区别之一。