如何将传感器数据存储到 Apache Hadoop HDFS、Hive、HBase 或其他
How to store sensor data into Apache Hadoop HDFS, Hive, HBase or other
假设您正在从 CSV 文件中读取数百万行数据。每行显示传感器名称、当前传感器值和观察到该值时的时间戳。
key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am
这与这样的信号有关:
所以我想知道将其存储到 Apache Hadoop HDFS 中的最佳和最有效的方法是什么。第一个想法是使用 BigTable aka HBase。这里的信号名称是行键,而值是随时间保存值的列组。可以向该行键添加更多列组(例如统计信息)。
另一个想法是使用表格(或 SQL 之类)结构。但是随后您在每一行中复制密钥。而且还得按需计算统计数据,单独存储(这里成秒table)。
不知有没有更好的办法。存储后,我想读取 Python/PySpark 中的数据并进行数据分析和机器学习。因此,应该可以使用模式 (Spark RDD) 轻松访问数据。
我会考虑使用。
- 使用 databricks csv
从 CSV 文件加载数据
- 正在清理数据
写入qarquet文件(节省space和时间)
从 parquet 文件加载数据
- 分析一下
- 也许保存为中间结果
假设您正在从 CSV 文件中读取数百万行数据。每行显示传感器名称、当前传感器值和观察到该值时的时间戳。
key, value, timestamp
temp_x, 8°C, 10:52am
temp_x, 25°C, 11:02am
temp_x, 30°C, 11:12am
这与这样的信号有关:
所以我想知道将其存储到 Apache Hadoop HDFS 中的最佳和最有效的方法是什么。第一个想法是使用 BigTable aka HBase。这里的信号名称是行键,而值是随时间保存值的列组。可以向该行键添加更多列组(例如统计信息)。
另一个想法是使用表格(或 SQL 之类)结构。但是随后您在每一行中复制密钥。而且还得按需计算统计数据,单独存储(这里成秒table)。
不知有没有更好的办法。存储后,我想读取 Python/PySpark 中的数据并进行数据分析和机器学习。因此,应该可以使用模式 (Spark RDD) 轻松访问数据。
我会考虑使用。
- 使用 databricks csv 从 CSV 文件加载数据
- 正在清理数据
写入qarquet文件(节省space和时间)
从 parquet 文件加载数据
- 分析一下
- 也许保存为中间结果