为什么 .doc 文件比 .txt 文件占用更多内存 space?

Why .doc file takes more memory space than .txt file?

我有 .doc 文件和 .txt 文件,其中只有“1”作为内容。但是 .doc 文件占用 10.9kb 而 .txt 文件只占用 1 个字节。

.txt 文件包含 1 个字节的纯文本字符,.doc 文件包含所有 Word 文档元数据,例如字体样式、大小、页边距等。

自我探索:

  1. 将文档另存为“.docx”文件。

  2. foo.docx 重命名为 foo.docx.zip(所有 Microsoft "X-document" 文件都是压缩文件)。

  3. 提取foo.docx.zip.

查看提取的 XML 文件 - 大多数文件与保存的 Word 文档中包含的其他 metadata 资源相关。

.doc 文件本质上只是 .docx 文件的旧二进制版本,并且包含类似的元数据信息。这可以用 binary/hex 编辑器查看。

(保存内容本身时也存在结构差异。)

文本文件仅包含文字内容 - 没有其他内容 - 这就是为什么它与使用单字节编码的内容大小相同的原因。