从 hdfs 读取数据时级联的实现问题

Implementation issue in cascading while reading data from hdfs

假设我在 hdfs 目录

中有这些文件
500/Customer/part-001
500/Customer/part-002
500/Customer/part-003

是否可以检查元组来自哪个部分文件

注:我研究过,但一无所获。

你的问题不是很清楚。 假设您的输出在以下布局中,分隔符是 ';'

身份证;姓名;年龄

1;约旦;22

2;内森;33

等等

您可以使用 awk 或 grep 或两者来获取记录

例如,如果要搜索记录 Nathan,请尝试文件命令

grep -r "Nathan"部分*

以上命令将搜索字符串 "Nathan",如果该字符串存在于任何零件文件中,则输出中的第一个条目(单词)将是文件的名称。

如果您不想要文件名,您可以使用

grep -hr "Nathan" 部分*

提问时请说清楚

我得到了如何从哪个部分文件中获取元组文件的答案coming.I使用下面的代码解决了我的问题。

String fileName = flowProcess.getProperty("cascading.source.path").toString();

谢谢,