如何搭建大数据平台,在Hadoop中接收和存储大数据
How to build a big data platform to receive and store big data in Hadoop
我正在尝试建立一个大数据平台来接收和存储在 Hadoop 中的大量异构数据,如(文档、视频、图像、传感器数据等),然后实施分类过程。
那么什么架构可以帮助我,因为我目前正在使用
VMware VSphere EXSi
Hadoop
哈布斯
节约
XAMPP
这些都很好,但是我不知道如何接收大量数据以及如何存储数据,因为我发现Hbase是一个面向列的数据库而不是数据仓库
您必须针对大数据类型(结构化、半结构化和非结构化)定制解决方案
如果总数据大小 <= 10 TB
,您可以对结构化数据使用 HIVE/HBASE
您可以使用SQOOP从传统RDBMS数据库Oracle、SQL服务器等导入结构化数据
您可以使用FLUME来处理非结构化数据。
您可以使用内容管理系统来处理非结构化数据和半结构化数据 - Tera 或 Peta 字节的数据。如果你存储的是非结构化数据,我更喜欢将数据存储在CMS中,并使用NoSQL数据库中的元数据信息,如HBASE
要处理大数据流,您可以使用 PIG。
查看 Structured Data and Un-Structured data Hadoop 中的处理
我正在尝试建立一个大数据平台来接收和存储在 Hadoop 中的大量异构数据,如(文档、视频、图像、传感器数据等),然后实施分类过程。
那么什么架构可以帮助我,因为我目前正在使用
VMware VSphere EXSi
Hadoop
哈布斯
节约
XAMPP
这些都很好,但是我不知道如何接收大量数据以及如何存储数据,因为我发现Hbase是一个面向列的数据库而不是数据仓库
您必须针对大数据类型(结构化、半结构化和非结构化)定制解决方案
如果总数据大小 <= 10 TB
,您可以对结构化数据使用 HIVE/HBASE您可以使用SQOOP从传统RDBMS数据库Oracle、SQL服务器等导入结构化数据
您可以使用FLUME来处理非结构化数据。
您可以使用内容管理系统来处理非结构化数据和半结构化数据 - Tera 或 Peta 字节的数据。如果你存储的是非结构化数据,我更喜欢将数据存储在CMS中,并使用NoSQL数据库中的元数据信息,如HBASE
要处理大数据流,您可以使用 PIG。
查看 Structured Data and Un-Structured data Hadoop 中的处理