分类中的变量重要性

Variable importance in classification

例如:我有100本书,每本书1000字。它们属于不同的 classes(喜剧、戏剧、...)。每个 class 包含 15 本不同的书。 当我对我的数据执行 tfidf 时,我会了解一本书中的每个单词在所有书籍的上下文中的重要性。 我看到属于同一 class 的书籍每个变量的 tfidf 值都相似。

假设戏剧和喜剧非常相似。 我怎么知道哪些词在这两个 class 之间有所不同? 我必须在属于喜剧的书中更改哪些词,以便现在的书现在属于戏剧?

我可以一一检查;但是我有2000本书,每本书17500字; 950 classes。这需要十年时间:)

作为初稿,计算每个 类 的平均向量,将它们归一化为单位长度,并计算绝对差。

这些应该可以让您大致了解哪些词可以区分这两个 类。

我肯定会 运行 成对测试,即你拥有的 475*949 对 类 中的每一对都有一个,因为 "important variables" 可能因情况而异。然后运行一些标准的特征选择算法,比如卡方或者信息增益。有关广泛研究,请参阅 http://www.jmlr.org/papers/volume3/forman03a/forman03a.pdf