如何识别电影或传记等文档类别

How to identify document categories like Movie or Biography

我目前 运行 的任务是将一些文档分类到一些预定义的集合中 类。为此,我依赖于多项式朴素贝叶斯,它适用于大多数类别,如棒球、运动或 space.

但是,如何查找某个人的电影或传记等类别的文章? MNB 主要基于词袋术语方法运行。这就是为什么棒球文章很容易被发现的原因,因为它们会包含很多棒球术语。然而,电影或传记文章包含的行话很少。电影文档描述电影或评论电影时,仅使用特定于该电影的词语。所以一篇关于好男人的文章可能包含很多法律术语,这可能会导致无意中将其标记为"Law"。传记也一样,只是描述一个人的一生。

如何对这类文件进行分类?

一个好的解决方案是使用命名实体识别半监督方法。例如,您在句子中标记了演员的名字(使用实体提取半监督方法,检查 this),并获取特定实体的计数(例如:演员(我们的实体)在句子中重复的次数越多,句子与电影的关系越多)。然后将它添加到一个特征中,因此它可能对分类器具有代表性和重要性,尝试从您的数据集中找到这些特征并将这些特征提供给您的分类器

您可以通过 Chi2 or ANOVA F Value

等测量来检查任何添加功能的有效性和影响