一个巨大的文件如何来自 HDFS 外部？

How can a huge file originate from outside of HDFS?

我是一个完全的新手，正在尝试了解 Hadoop 和 MapReduce。我知道 HDFS 可以存储一个巨大的文件，例如1 PB，通过将其拆分为可管理大小的块。我不明白的是，这么大的文件不可能存储在HDFS之外的硬盘上，它可能从哪里产生和传输？

它通常不是来自单个 HDD，它通常来自安装在服务器/集群上的 RAID 或 JBOD 磁盘池，更常见的是来自一个或多个数据库。

而且它不需要是 "one file" - 它可以是许多共同构成数据库表、文档、图片、mp3、视频等的文件。