如何将传感器数据存储到 Apache Hadoop HDFS、Hive、HBase 或其他

Question

假设您正在从 CSV 文件中读取数百万行数据。每行显示传感器名称、当前传感器值和观察到该值时的时间戳。

key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am

这与这样的信号有关：

所以我想知道将其存储到 Apache Hadoop HDFS 中的最佳和最有效的方法是什么。第一个想法是使用 BigTable aka HBase。这里的信号名称是行键，而值是随时间保存值的列组。可以向该行键添加更多列组（例如统计信息）。

另一个想法是使用表格（或 SQL 之类）结构。但是随后您在每一行中复制密钥。而且还得按需计算统计数据，单独存储（这里成秒table）。

不知有没有更好的办法。存储后，我想读取 Python/PySpark 中的数据并进行数据分析和机器学习。因此，应该可以使用模式 (Spark RDD) 轻松访问数据。

Answer 1

我会考虑使用。

How to store sensor data into Apache Hadoop HDFS, Hive, HBase or other