显示仅在特定日期创建的 HDFS 上的 hadoop 文件
show hadoop files on HDFS only created on a specific day
我想在特定日期创建的特定文件夹下显示 HDFS 上的 hadoop 文件,有 command/option 可以做到这一点吗?
提前致谢,
林
据我所知,hadoop
命令不支持这个。
你可以写个脚本来实现,这个实现不太好。
我的建议:
- 以更方便使用的方式组织您的文件。就你的情况来说,做一个
time partition
会更好。
- 如果你想让数据分析更简单,使用一些基于
hdfs
的database
,比如hive
。 hive
支持 partition
和 sql
查询和插入。
关于 hive
和 hive partitions
的更多信息:
https://hive.apache.org/
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-PartitionedTables
我想在特定日期创建的特定文件夹下显示 HDFS 上的 hadoop 文件,有 command/option 可以做到这一点吗?
提前致谢, 林
据我所知,hadoop
命令不支持这个。
你可以写个脚本来实现,这个实现不太好。
我的建议:
- 以更方便使用的方式组织您的文件。就你的情况来说,做一个
time partition
会更好。 - 如果你想让数据分析更简单,使用一些基于
hdfs
的database
,比如hive
。hive
支持partition
和sql
查询和插入。
关于 hive
和 hive partitions
的更多信息:
https://hive.apache.org/
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-PartitionedTables