一个巨大的文件如何来自 HDFS 外部?

How can a huge file originate from outside of HDFS?

我是一个完全的新手,正在尝试了解 Hadoop 和 MapReduce。我知道 HDFS 可以存储一个巨大的文件,例如1 PB,通过将其拆分为可管理大小的块。我不明白的是,这么大的文件不可能存储在HDFS之外的硬盘上,它可能从哪里产生和传输?

它通常不是来自单个 HDD,它通常来自安装在服务器/集群上的 RAID 或 JBOD 磁盘池,更常见的是来自一个或多个数据库。

而且它不需要是 "one file" - 它可以是许多共同构成数据库表、文档、图片、mp3、视频等的文件。