tsfresh select_features 方法背后的算法

The algorithm behind tsfresh select_features method

我最近开始使用 tsfresh 库从时间序列数据中提取特征。

很酷,我可以用几行代码获得所有功能,但我对 select_features 方法背后的逻辑有疑问。我查看了官方文档并进行了谷歌搜索,但找不到用于此的算法。我想知道它是如何工作的,以便我可以决定在 tsfresh.

中数据处理后的特征选择阶段做什么

根据他们文档中的 that page,他们所做的是:

  1. 他们提取了一整套特征
  2. 他们单独测试不同特征的重要性(在监督设置中,所以测试类似于 "is this feature useful to predict that output?")并使用称为 Benjamini-Yekutieli 程序的程序保留最重要的特征

他们提供的参考资料应该是您感兴趣的:

[1] Christ, M., Kempa-Liehr, A.W。和 Feindt, M. (2016)。面向工业大数据应用的分布式并行时间序列特征提取。 ArXiv 电子版:1610.07717 URL:http://adsabs.harvard.edu/abs/2016arXiv161007717C

[2] Benjamini, Y. 和 Yekutieli, D. (2001)。依赖下多重测试错误发现率的控制。统计年鉴,1165–1188

其中 [1] 是描述 tsfresh 的论文,[2] 是多重测试程序(上面称为 Benjamini-Yekutieli 程序)的参考。