我在 ML 算法上应用了 W2V。它为 NB 给出了负值误差，并为所有其他算法给出了 0.48 的精度。怎么来的？

Question

from gensim.models import Word2Vec
import time
# Skip-gram model (sg = 1)
size = 1000
window = 3
min_count = 1
workers = 3
sg = 1

word2vec_model_file = 'word2vec_' + str(size) + '.model'
start_time = time.time()
stemmed_tokens = pd.Series(df['STEMMED_TOKENS']).values
# Train the Word2Vec Model
w2v_model = Word2Vec(stemmed_tokens, min_count = min_count, size = size, workers = workers, window = window, sg = sg)
print("Time taken to train word2vec model: " + str(time.time() - start_time))
w2v_model.save(word2vec_model_file)

这是我写的代码。我将此文件应用于二进制分类的所有 ML 算法，但所有算法都给出相同的结果 0.48。怎么可能？而且与 BERT 和 TFIDF 分数相比，这个结果也很差。

Answer 1

1000 维的向量 size 非常罕见，需要大量数据进行训练。例如，著名的 GoogleNews 向量用于 300 万个单词，训练了大约 1000 亿个语料库单词——但仍然只有 300 个维度。您的 STEMMED_TOKENS 可能没有足够的数据来证明 100 维向量的合理性，更不用说 300 或 1000 维了。

选择 min_count=1 是个坏主意。该算法无法从只出现几次的单词中学到任何有价值的东西。通常，人们通过完全丢弃稀有词来获得更好的结果，就像默认的 min_count=5 一样。（如果您有大量数据，您可能增加此值以丢弃更多单词。）

您是否在检查模型的大小或词对词的结果以确保它符合您的预期？尽管您的列被命名为 STEMMED_TOKENS，但我没有看到任何实际的拆分为标记，并且 Word2Vec class 期望每个文本都是 列表-strings，不是一个字符串。

最后，如果您没有看到将富含词向量的数据提供给其他 class化步骤的所有其他选择，则可能（甚至可能）存在其他错误。

鉴于二元class化模型总是可以通过简单地class用更常见的class验证每个示例来获得至少 50% 的准确度，任何准确度结果都会降低超过 50% 应该立即引起对您过程中主要问题的怀疑，例如：

示例和标签未对齐
insufficient/unrepresentative训练数据
由于数据准备或调用错误，有些步骤运行根本没有

我在 ML 算法上应用了 W2V。它为 NB 给出了负值误差，并为所有其他算法给出了 0.48 的精度。怎么来的？

I applied W2V on ML Algorithms. It gives error of negative value for NB and gives 0.48 accuracy for for all the other algorithms. How come?

python

random-forest

logistic-regression

word2vec

naivebayes