构建分类器以检测主观性的特征向量
Features Vectors to build classifier to detect subjectivity
我正在尝试构建一个分类器来检测主观性。我有标有 subjective 和 objective 的文本文件。我对从这些数据创建特征的概念有点迷惑。我找到了主观和 objective 标签的词典。我可以做的一件事是创建一个功能,让单词出现在相应的词典中。也许是主观和 objective 字典中出现的单词数。之后打算用朴素贝叶斯或者SVM来开发模型
我的问题如下
- 我的方法正确吗?
- 我可以创建更多功能吗?如果可能的话建议一些或给我一些论文或 link
- 我可以做一些像 chi -sq 等测试来从字典中识别有效的单词吗?
你基本上是在正确的轨道上。在做任何其他事情之前,我会尝试将分类器与您已有的功能一起应用,看看它的效果如何。
实际上,改进工作的最佳方法是 google 主观性分类论文并阅读它们(有相当多 number of them). For example this one 列出了此任务的典型特征。
是的,卡方可以用来构建文本分类的字典(其他常用的方法有TD*IDF、pointwise mutal information和LDA)
此外,最近新的基于神经网络的文本分类方法,例如 paragraph vector and dynamic convolutional neural networks with k-max pooling 在情感分析方面展示了最先进的结果,因此它们可能也适用于主观性分类。
我正在尝试构建一个分类器来检测主观性。我有标有 subjective 和 objective 的文本文件。我对从这些数据创建特征的概念有点迷惑。我找到了主观和 objective 标签的词典。我可以做的一件事是创建一个功能,让单词出现在相应的词典中。也许是主观和 objective 字典中出现的单词数。之后打算用朴素贝叶斯或者SVM来开发模型
我的问题如下
- 我的方法正确吗?
- 我可以创建更多功能吗?如果可能的话建议一些或给我一些论文或 link
- 我可以做一些像 chi -sq 等测试来从字典中识别有效的单词吗?
你基本上是在正确的轨道上。在做任何其他事情之前,我会尝试将分类器与您已有的功能一起应用,看看它的效果如何。
实际上,改进工作的最佳方法是 google 主观性分类论文并阅读它们(有相当多 number of them). For example this one 列出了此任务的典型特征。
是的,卡方可以用来构建文本分类的字典(其他常用的方法有TD*IDF、pointwise mutal information和LDA)
此外,最近新的基于神经网络的文本分类方法,例如 paragraph vector and dynamic convolutional neural networks with k-max pooling 在情感分析方面展示了最先进的结果,因此它们可能也适用于主观性分类。