决策树如何识别给定文本数据集中的特征?
How does decision tree recognize the features from a given text dataset?
我有一个二进制分类文本数据,其中有 10 个文本特征。
我使用词袋、TFIDF 等各种技术将它们转换为数值。
我使用 hstack() 将所有这些功能在处理后再次堆叠在一起。
将它们转换为数字特征后,每个特征现在都有大量列,因此在转换后,我的数据集有大约 3000 列。
我的问题是,当我将这个数据集放入决策树分类器 (sklearn) 时,分类器如何识别属于特定特征的列?
例如,3000 列中的前 51 列属于 US_states 个词袋。
现在,DT将如何识别它?
PS: 处理前的数据在pandas Dataframe.
处理后是一个堆叠的numpy数组输入到分类器中
决策树无法识别属性来自哪些特征。
我有一个二进制分类文本数据,其中有 10 个文本特征。
我使用词袋、TFIDF 等各种技术将它们转换为数值。
我使用 hstack() 将所有这些功能在处理后再次堆叠在一起。
将它们转换为数字特征后,每个特征现在都有大量列,因此在转换后,我的数据集有大约 3000 列。
我的问题是,当我将这个数据集放入决策树分类器 (sklearn) 时,分类器如何识别属于特定特征的列?
例如,3000 列中的前 51 列属于 US_states 个词袋。
现在,DT将如何识别它?
PS: 处理前的数据在pandas Dataframe.
处理后是一个堆叠的numpy数组输入到分类器中
决策树无法识别属性来自哪些特征。