我们如何在 Hadoop 中导入视频或音频或图像,并可以做进一步的分析。

How can we import video or audio or images in Hadoop and can do further analysis.

我知道如何使用 Json loader 和 Json serde 使用 Pig、hive、sqoop 在 hadoop 中导入和分析结构化和半结构化数据,但如何导入视频或音频等非结构化数据或图像以及如何对 it.Kindly 进行进一步分析,如果您有任何分析非结构化数据的用例,那将是非常好的 help.Thank 你!

由于 Hadoop 不能很好地处理小文件,一种方法是将二进制文件分组为少量大文件(以避免处理 有大量的小文件)。

为此,您可以使用自定义 UDF 将二进制文件(图像、音频、视频等)转换为序列文件,将它们聚合并存储到 HDFS。

下面的书 Pig Design Patterns 提供了一些与此主题相关的设计模式(请参阅第 2 章)。

https://www.packtpub.com/mapt/book/big_data_and_business_intelligence/9781783285556

github 上提供了一些代码片段。

https://github.com/pradeep-pasupuleti/pig-design-patterns/blob/master/Chapter2

希望对您有所帮助!