DNN 算法中基于树的降维

Question

我的问题很简单：在使用 DNN 算法训练数据集之前，是否可以使用基于树的降维，例如嵌入随机森林的特征重要性？

换句话说，使用基于树的特征重要性是否会阻止使用不同于 tree/Random 森林的训练算法？

Answer 1

我认为你应该阅读 DNN 文章。

为什么？为什么要在DNN训练之前使用Random Forest？

是的，您可以使用

显示random-forest的特征重要性

random_forest = RandomForestClassifier(random_state=42).fit(x_train, y_train)

feature_importances = DataFrame(random_forest.feature_importances_,
                                index = x_train.columns,
                                columns=['importance']).sort_values('importance', 
                                                                 ascending=False)
    
print(feature_importances)

但这是一个feature-extraction方法。 DNN 是一种 neural-network 方法。

DNN 比 random-forest 更复杂，而 random-forest 处理 feature-extraction，DNN 处理

feature-extraction,
back-propagation,
feed-forward 方法。

如果您为 DNN 提供足够的训练样本，您的准确率会更高。

使用基于树的特征重要性是否会阻止使用训练算法？

不，根据问题，足够的特征大小和样本会有所不同。通常，您不会使用 random-forest 来提取 1M 图像的特征重要性。

此外，您不对小数据集使用 DNN。

DNN 算法中基于树的降维

Tree-Based dimensionality reduction in DNN algorithms

neural-network

feature-selection

random-forest