Python Keras LSTM 特征顺序相关性

Python Keras LSTM Features order relevance

我想知道数组中特征的顺序是否会影响训练模型和验证分数。例如，如果我有这个功能列表来训练我的模型：

["关闭", "close_returns", "log_returns", "打开", "open_returns", "open_log_returns"]

如果我像这样颠倒顺序：

["关闭", "打开","log_returns", "close_returns", "open_log_returns", "open_returns"]

这对预测模型有什么影响吗？或者排序顺序不会干扰？如果顺序干扰。我怎么知道兽令是什么？

我如何知道确定的特征是否与我在 Keras 上的 lstm 模型相关？

要确定特征相关性，有几种方法，例如 ALE、Anchors、LIME 和 SHAP。从这些中，我推荐 SHAP，因为它提供了非常好的和信息丰富的可视化，例如力、依赖性和特征重要性图。这是一个 link 到 Python 笔记本，使用 Keras LSTM for IMDB Sentiment Classification where the force plot is generated for that specific problem. Nevertheless, SHAP can also be applied to regression problems. Here is another link 到 SHAP 的 API，您可以在其中找到如何获取其他图。请记住，一些可视化是针对特定样本生成的，例如力图和其他针对整个集合的可视化（特征重要性）。

有关 SHAP 工作原理及其优缺点的信息，请参见 here。

特征的顺序没有太大区别，因为每个特征都有一个单独的输出节点。

重要的是事件的顺序（行）。这是您将使用模型建模和预测的序列。要确定使用哪些特征，您必须知道您在建模什么。将它们全部放入将为您提供所有列的预测，但也可能会使模型更难训练和优化。

所以您应该考虑您实际需要在模型中包含哪些特征。例如，你能从特征 B 推断出特征 A 吗？如果是这样，特征A不需要包括在内，因为它很容易计算。

那些不添加太多信息的功能呢，例如不经常更改的列。有必要吗？

Python Keras LSTM 特征顺序相关性

Python Keras LSTM Features order relevance

python

predict

lstm

keras

tensorflow