在 hadoop hdfs 中查看数据格式的最佳方式是什么?

What is best way to see data format in hadoop hdfs?

将近 50GB 的 CSV 文件加载到 Hadoop 集群中,我想查看一些示例记录以识别列。

我试过使用

hadoop fs -cat employees.csv | head -n 10

我的问题是

  1. 查看数据的命令是否正确?
  2. head -n 10 - 它将加载 50 GB 数据并过滤前 10 行?它是如何工作的?
  3. 还有其他更好的方法吗?

这取决于您的版本。

对于旧的 Hadoop (< 3.1.0) 版本:

hadoop fs -cat employees.csv | head -n 10

对于较新的 (>= 3.1.0) Hadoop 版本

 hadoop fs -head employees.csv