存储 470 万个二进制文件的最佳方式

Best way to store 4.7 million binary files

我已经解析了整个英文维基百科,并将每篇解析的文章保存在单独的协议缓冲区中 file.Each 文件具有唯一 ID (wikiid)。我现在有 470 万篇已解析的文章,总大小为 180 GB。我知道 ext4 可以处理这么多文件,但这是一个好习惯吗?还是我应该使用数据库?我不需要经常更新它。

将其保存为文件 - 数据库的扩展和维护成本相对较高。 尽管您可能要小心 name/store 它们的方式 - 而不是一个包含所有 4.7M 文件的目录 - 具有可以说 4 级的目录结构。预处理 4.7 M 文件以存储在目录结构中。说出文件的 ID D1D2D3d4fewmorechars.txt - 所以现在将此文件存储在 /D1/D2/D3/D4/D1D2D3D4fewmorechars.txt.

或者另一种选择是使用 XFS 等文件系统,ext3/4 - 使用散列目录等目录索引技术。 检查此 link - https://serverfault.com/questions/43133/filesystem-large-number-of-files-in-a-single-directory