朴素贝叶斯多项式模型
Naive Bayes multinomial model
对于电影评论数据集,我正在创建朴素贝叶斯多项式模型。现在在训练数据集中,每个流派都有评论。因此,我不是为电影评论数据集创建一个通用模型——忽略流派特征,而是如何训练一个模型,除了与评论中出现的单词相关的 tf-idf 之外,还考虑流派特征。我是否需要为每种类型创建一个模型,或者我可以将其合并到一个模型中吗?
Training Dataset Sample:
genre, review, classification
Romantic, The movie was really emotional and touched my heart!, Positive
Action, It was a thrilling movie, Positive
....
Test Data Set:
Genre, review
Action, The movie sucked bigtime. The action sequences didnt fit into the plot very well
考虑将 genre
视为分类变量,可能使用虚拟编码(参见 pd.get_dummies(df['genre'])
),并将其与 tf-idf 分数一起输入到您的模型中。
除了朴素贝叶斯之外,还要考虑其他模型类型 - 神经网络涉及变量之间的更多交互,可能有助于更好地捕捉类型之间的差异。 Scikit-learn 也有一个值得一看的 MLPClassifier
实现。
来自documentation、The multinomial distribution normally requires integer feature counts
。作为输入提供的分类变量,特别是如果它们被编码为整数,可能不会对模型的预测能力产生积极影响。如上所述,您可以考虑使用神经网络,或者完全放弃流派列。如果在拟合模型后仅对文本特征显示出足够的预测能力,则可能甚至没有必要添加分类变量作为输入。
我尝试此任务的方法是 stacking the dummy categorical values with the text features, and feeding the stacked array to a SGD model, along with the target labels. You would then perform GridSearch 以选择最佳超参数。
对于电影评论数据集,我正在创建朴素贝叶斯多项式模型。现在在训练数据集中,每个流派都有评论。因此,我不是为电影评论数据集创建一个通用模型——忽略流派特征,而是如何训练一个模型,除了与评论中出现的单词相关的 tf-idf 之外,还考虑流派特征。我是否需要为每种类型创建一个模型,或者我可以将其合并到一个模型中吗?
Training Dataset Sample:
genre, review, classification
Romantic, The movie was really emotional and touched my heart!, Positive
Action, It was a thrilling movie, Positive
....
Test Data Set:
Genre, review
Action, The movie sucked bigtime. The action sequences didnt fit into the plot very well
考虑将 genre
视为分类变量,可能使用虚拟编码(参见 pd.get_dummies(df['genre'])
),并将其与 tf-idf 分数一起输入到您的模型中。
除了朴素贝叶斯之外,还要考虑其他模型类型 - 神经网络涉及变量之间的更多交互,可能有助于更好地捕捉类型之间的差异。 Scikit-learn 也有一个值得一看的 MLPClassifier
实现。
来自documentation、The multinomial distribution normally requires integer feature counts
。作为输入提供的分类变量,特别是如果它们被编码为整数,可能不会对模型的预测能力产生积极影响。如上所述,您可以考虑使用神经网络,或者完全放弃流派列。如果在拟合模型后仅对文本特征显示出足够的预测能力,则可能甚至没有必要添加分类变量作为输入。
我尝试此任务的方法是 stacking the dummy categorical values with the text features, and feeding the stacked array to a SGD model, along with the target labels. You would then perform GridSearch 以选择最佳超参数。