分类中的变量重要性

Variable importance in classification

例如：我有100本书，每本书1000字。它们属于不同的 classes（喜剧、戏剧、...）。每个 class 包含 15 本不同的书。当我对我的数据执行 tfidf 时，我会了解一本书中的每个单词在所有书籍的上下文中的重要性。我看到属于同一 class 的书籍每个变量的 tfidf 值都相似。

假设戏剧和喜剧非常相似。我怎么知道哪些词在这两个 class 之间有所不同？我必须在属于喜剧的书中更改哪些词，以便现在的书现在属于戏剧？

我可以一一检查；但是我有2000本书，每本书17500字； 950 classes。这需要十年时间:)

作为初稿，计算每个类的平均向量，将它们归一化为单位长度，并计算绝对差。

这些应该可以让您大致了解哪些词可以区分这两个类。

我肯定会运行成对测试，即你拥有的 475*949 对类中的每一对都有一个，因为 "important variables" 可能因情况而异。然后运行一些标准的特征选择算法，比如卡方或者信息增益。有关广泛研究，请参阅 http://www.jmlr.org/papers/volume3/forman03a/forman03a.pdf。

分类中的变量重要性

Variable importance in classification

statistics

nlp

data-mining