Apache NiFi/Hive - 在 HDFS 中存储合并的推文,在配置单元中创建 table

Apache NiFi/Hive - store merged tweets in HDFS, create table in hive

我想创建以下工作流程:

1.Fetch 使用 GetTwitter 处理器的推文。

  1. 使用 MergeContent 进程将推文合并到更大的文件中。

  2. 将合并后的文件存储在 HDFS 中。

  3. 在 hadoop/hive 方面,我想根据这些推文创建一个外部 table。

有如何执行此操作的示例,但我缺少的是如何配置 MergeContent 处理器:将什么设置为页眉、页脚和分界符。 以及在蜂​​巢端使用什么作为分隔符,以便它将合并的推文拆分成行。 希望我把自己描述清楚了。

提前致谢。

二进制模式下的 MergeContent 处理器可以很好地完成工作。无需页眉、页脚和分界符。