使用什么算法和库来处理传感器数据

What algorithms and libraries to use to process sensor data

抱歉交叉发布,我没有关于交叉验证的答案

我刚开始接触数据科学。我有来自传感器 (20) 的数据,几乎所有时间我都有 "good" 个值。有时,我能发现不对劲。现在我有 500,000 行,每行包含 20 列,大约 300 列用于 "bad" 行。这些 "bad" 行可以表示不同类型的错误,有时没有值。我不知道我会有多少种错误。

由于我没有足够的"bad"数据,我不能直接使用神经网络。

我的意图是使用 outlier/anomaly 检测算法,使用这些异常进行聚类并手动将错误分配给每个聚类。

您可以推荐哪些算法和 python 库?任何帮助将不胜感激。

这是离群值和异常检测中的常见问题,针对此类分析制定了几种策略。

自动编码器:查看此 post 关于使用自动编码器进行欺诈检测 https://medium.com/@curiousily/credit-card-fraud-detection-using-autoencoders-in-keras-tensorflow-for-hackers-part-vii-20e0c85301bd

而这个回购:https://github.com/chen0040/keras-anomaly-detection

我最好的解释这种方法是如何工作的:他们将输入分开,然后将它们与基础一起放回去,寻找与正常情况根本不同的输入。

这是一种侧重于利用 LTSM 的方法,LTSM 是卷积神经网络中一种流行的 "memory" 单元:https://developer.ibm.com/tutorials/iot-deep-learning-anomaly-detection-5/

您也可以探索 GAN,因为它们从根本上取决于鉴别器。在这里查看它们:https://skymind.ai/wiki/generative-adversarial-network-gan

Python 中有很多 NN/ML 个库。 Keras, tf, scikit-learn, pytorch, nltk, spacy 都很受欢迎