选择长期storage/analytic系统?

Choosing a long-term storage/analytic system?

我正在从事的项目的简要总结:

我在我就读的州立大学附近的一家小公司(一家大公司的一部分)被聘为网络开发实习生。在过去的几个月里,我和另外两名实习生一直在从事前端和后端工作。该公司正在制作在其产品中添加传感器的原型(oil/gas 个行业);我们的任务是构建一个门户网站,客户可以登录该门户网站查看来自他们机器的数据,即使他们不在他们附近。

基本上,我们正在收集传感器数据 (~10 sensors/machine) 并将其发回给我们。我们遇到的困难是确定存储和分析长期数据的最佳方式。我们有一个 Redis Cache 设置用于前端快速访问,其中只存储每台机器的最新数据集。但是对于历史数据,我(和我的同事)很难决定最佳路线。我们的整个项目基于 VS (C#/Razor) 与 Azure 集成(顺便说一下,这很了不起),所以我也想在那里保留长期存储。据我所知,BLOB 中的 HDinsight + 数据似乎是最佳选择,但在后端解决方案方面,我还比较陌生。我只是想听听一些可能在该领域有更多经验的年长开发人员的意见,因为我们是这里唯一的开发人员,除了一些年长的成员,他们更多地参与事物的工程方面而不是开发。

那么,stack overflow 的专业人士,您对长期数据存储和分析有何建议?

PS:如果我对 HDinsight 感到困惑,我深表歉意。据我了解,它将 BLOB 存储中的数据映射到 HBase 以便于分析? Hadoop/HBase 让我很困惑。

我的第一个建议是 Azure Table 存储。它提供了一个高度可扩展和低成本的数据归档解决方案。如果设计得当,您还可以获得非常不错的查询性能。详情请参阅 Azure Storage Table Design Guide

我的第二个选择是 Azure DocumentDB 服务,它是一个 NoSQL 文档数据库。成本稍高,但查询数据灵活多了。

只有在您有特定需求时才应选择 HDInsight,因为这是一项资源密集型且昂贵的服务。一旦确定了大数据分析的特定要求,即导入数据并使用 HDInsight 对其进行处理时。