如何确定哪些词在情感分析中具有高预测力?
How to determine which words have high predictive power in Sentiment Analysis?
我正在处理 Tweeter 数据的分类问题。用户标记的推文(相关的、不相关的)用于训练机器学习分类器以预测一条看不见的推文是否与用户相关。
我使用简单的预处理技术,如去除停用词、词干提取等,并使用 sklearn Tfidfvectorizer 将单词转换为数字,然后再将它们输入分类器,例如SVM,内核 SVM,朴素贝叶斯。
我想确定哪些词(特征)具有更高的预测能力。最好的方法是什么?
我试过wordcloud,但它只显示样本中出现频率最高的词。
更新:
以下方法和 sklearns feature_selection 似乎为我的问题提供了迄今为止最好的答案:
top features还有其他建议吗?
您尝试过使用 tfidf 吗?它创建一个加权矩阵,为每个文本中语义更有意义的词提供更大的权重。它将单个文本(在本例中为推文)与所有文本(所有推文)进行比较。它比使用原始术语计数进行分类和其他任务更有帮助。 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
我正在处理 Tweeter 数据的分类问题。用户标记的推文(相关的、不相关的)用于训练机器学习分类器以预测一条看不见的推文是否与用户相关。
我使用简单的预处理技术,如去除停用词、词干提取等,并使用 sklearn Tfidfvectorizer 将单词转换为数字,然后再将它们输入分类器,例如SVM,内核 SVM,朴素贝叶斯。
我想确定哪些词(特征)具有更高的预测能力。最好的方法是什么?
我试过wordcloud,但它只显示样本中出现频率最高的词。
更新:
以下方法和 sklearns feature_selection 似乎为我的问题提供了迄今为止最好的答案:
top features还有其他建议吗?
您尝试过使用 tfidf 吗?它创建一个加权矩阵,为每个文本中语义更有意义的词提供更大的权重。它将单个文本(在本例中为推文)与所有文本(所有推文)进行比较。它比使用原始术语计数进行分类和其他任务更有帮助。 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html