如何从 impala 数据库导入字符串数据到 wordcount mapreduce

How to import string data from impala database to wordcount mapreduce

我试图将 Wordcount 代码与 mapreduce hadoop 一起使用。但是,我阅读的几乎所有 wordcount 教程都是从作业配置的文件路径导入数据。

我想使用 java 将 impala 数据库连接到字数统计 mapreduce。

我该如何进行?或者只是在作业配置中输入字符串变量。

实现此目的的一个快速选择是,在您的 impala/hive 会话中发出 show create table <table name> 并获得 table 的 storage location

重新使用 table 的文件路径位置作为您的 wordcount 程序的输入路径,并相应地处理记录。