如何搭建大数据平台,在Hadoop中接收和存储大数据

How to build a big data platform to receive and store big data in Hadoop

我正在尝试建立一个大数据平台来接收和存储在 Hadoop 中的大量异构数据,如(文档、视频、图像、传感器数据等),然后实施分类过程。 那么什么架构可以帮助我,因为我目前正在使用 VMware VSphere EXSi Hadoop
哈布斯 节约 XAMPP
这些都很好,但是我不知道如何接收大量数据以及如何存储数据,因为我发现Hbase是一个面向列的数据库而不是数据仓库

您必须针对大数据类型(结构化、半结构化和非结构化)定制解决方案

如果总数据大小 <= 10 TB

,您可以对结构化数据使用 HIVE/HBASE

您可以使用SQOOP从传统RDBMS数据库Oracle、SQL服务器等导入结构化数据

您可以使用FLUME来处理非结构化数据。

您可以使用内容管理系统来处理非结构化数据和半结构化数据 - Tera 或 Peta 字节的数据。如果你存储的是非结构化数据,我更喜欢将数据存储在CMS中,并使用NoSQL数据库中的元数据信息,如HBASE

要处理大数据流,您可以使用 PIG

查看 Structured Data and Un-Structured data Hadoop 中的处理