到 hadoop 还是不到 hadoop

To hadoop or not to hadoop

我们有数据（此时未分配），我们希望 transform/aggregate/pivot 达到 wazoo。

我在 www 上看了看，我问的所有答案都指向 hadoop 可扩展，便宜到运行（没有 SQL 服务器机器和许可证），快速（如果你有数据分配），可编程（不是你拖来拖去的小盒子）。

我一直遇到一个问题即'Use hadoop if you have more than 10gb of data'

现在我们甚至没有 1gb 的数据（在这个阶段）是否仍然可行。

我的另一个选择是 SSIS。现在我们确实将 SSIS 用于我们当前的一些 ETL，但我们没有资源，将 SQL 放在云中只会花费很多，甚至不让我开始考虑可伸缩性成本和配置

谢谢

您当前的数据量似乎太低，无法进入 hadoop。仅当您正在处理大量数据(TB/year) 并且您怀疑数据量会呈指数级增长时才进入hadoop 生态系统。

让我解释一下为什么我建议不要为如此低的数据量使用 hadoop。默认情况下，hadoop 将您的文件存储为 128MB 的数据块，并且在处理时，它一次需要 128MB 的块来处理（并行）。如果您的业务需求涉及繁重的 CPU 密集处理，那么您可以将输入块大小从 128MB 减少到更少。但是再次通过减少要并行处理的数据量，您最终会增加 IO seaks（低级块存储）的数量。最后，您可能会花费更多的资源来管理任务，而不是实际任务所占用的资源。因此，请尽量避免将分布式计算作为您（低）数据量的解决方案。

正如@Makubex 所建议的，不要使用 hadoop。

而且 SISS 是一个不错的选择，因为它处理内存中的数据，因此它执行数据聚合、数据类型转换、合并等的速度比使用存储过程中的临时表写入磁盘快得多。

Hadoop 适用于大量数据，我建议它只适用于 TB 级数据。对于小数据集，SISS（在内存中运行）会慢得多。

参考：When to use T-SQL or SSIS for ETL

到 hadoop 还是不到 hadoop

To hadoop or not to hadoop

hadoop

ssis

etl