DNN 算法中基于树的降维

Tree-Based dimensionality reduction in DNN algorithms

我的问题很简单:在使用 DNN 算法训练数据集之前,是否可以使用基于树的降维,例如嵌入随机森林的特征重要性?

换句话说,使用基于树的特征重要性是否会阻止使用不同于 tree/Random 森林的训练算法?

我认为你应该阅读 DNN 文章。

为什么?为什么要在DNN训练之前使用Random Forest?

是的,您可以使用

显示random-forest的特征重要性
random_forest = RandomForestClassifier(random_state=42).fit(x_train, y_train)

feature_importances = DataFrame(random_forest.feature_importances_,
                                index = x_train.columns,
                                columns=['importance']).sort_values('importance', 
                                                                 ascending=False)
    
print(feature_importances)

但这是一个feature-extraction方法。 DNN 是一种 neural-network 方法。

DNN 比 random-forest 更复杂,而 random-forest 处理 feature-extraction,DNN 处理

  • feature-extraction,
  • back-propagation,
  • feed-forward 方法。

如果您为 DNN 提供足够的训练样本,您的准确率会更高。

  • 使用基于树的特征重要性是否会阻止使用训练算法?

不,根据问题,足够的特征大小和样本会有所不同。通常,您不会使用 random-forest 来提取 1M 图像的特征重要性。

此外,您不对小数据集使用 DNN。