为什么读取整个文件占用的 RAM 多于其在磁盘上的大小?

Why does reading a whole file take up more RAM than its size on DISK?

警告

不是 this 的副本。我对找出我的内存消耗或问题不感兴趣,因为我已经在下面这样做了。问题是为什么内存消耗是这样的

此外,即使我确实需要一种方法来分析我的内存,请注意 guppy(上述 link 中建议的 Python 内存分析器不支持 Python 3 和替代 guppy3 不会给出准确的结果,无论结果如何(见下面的实际大小):

Partition of a set of 45968 objects. Total size = 5579934 bytes.
 Index  Count   %     Size   % Cumulative  % Kind (class / dict of class)
     0  13378  29  1225991  22   1225991  22 str
     1  11483  25   843360  15   2069351  37 tuple
     2   2974   6   429896   8   2499247  45 types.CodeType

背景

是的,所以我有这个简单的脚本,我用它来做一些 RAM 消耗测试,通过两种不同的方式读取文件:

  1. 一次一行地读取一个文件,处理并丢弃它(通过generators),这是有效的并且推荐用于基本上任何文件大小(尤其是大文件),这按预期工作

  2. 将整个文件读入内存(我知道不建议这样做,但这只是为了教育目的oses)。


测试脚本

import os
import psutil
import time


with open('errors.log') as file_handle:
    statistics = os.stat('errors.log')  # See below for contents of this file
    file_size = statistics.st_size / 1024 ** 2

    process = psutil.Process(os.getpid())

    ram_usage_before = process.memory_info().rss / 1024 ** 2
    print(f'File size: {file_size} MB')
    print(F'RAM usage before opening the file: {ram_usage_before} MB')

    file_handle.read()  # loading whole file in memory

    ram_usage_after = process.memory_info().rss / 1024 ** 2
    print(F'Expected RAM usage after loading the file: {file_size + ram_usage_before} MB')
    print(F'Actual RAM usage after loading the file: {ram_usage_after} MB')

    # time.sleep(30)

输出

File size: 111.75 MB
RAM usage before opening the file: 8.67578125 MB
Expected RAM usage after loading the file: 120.42578125 MB
Actual RAM usage after loading the file: 343.2109375 MB

我还添加了 30 秒睡眠以在 os 级别使用 awk 检查,我在其中使用了以下命令:

ps aux | awk '{print /1024 " MB\t\t" }' | sort -n

产生:

...
343.176 MB      python  # my script
619.883 MB      /Applications/PyCharm.app/Contents/MacOS/pycharm
2277.09 MB      com.docker.hyperkit

该文件包含以下行的 800K 个副本:

[2019-09-22 16:50:17,236] ERROR in views, line 62: 404 Not Found: The
following URL: http://localhost:5000/favicon.ico was not found on the
server.

是因为块大小还是动态分配,内容将以块的形式加载,并且大量的内存会实际上未使用?

当您在 Python 中打开文件时,默认情况下您会在 文本模式 中打开它。这意味着二进制数据是根据操作系统默认值或明确给定的编解码器解码的。

与所有数据一样,文本数据在您的计算机中以字节表示。大多数英文字母表都可以用一个字节表示,例如字母 "A" 通常被翻译成数字 65,或者用二进制表示:01000001。这种编码(ASCII)在很多情况下已经足够好了,但是当你想用像罗马尼亚语这样的语言编写文本时,它已经不够用了,因为 ăţ 等字符不属于的 ASCII。

有一段时间,人们对每种语言(群体)使用不同的编码,例如Latin-x 编码组 (ISO-8859-x) 用于基于拉丁字母表的语言,以及用于其他(尤其是 CJK)语言的其他编码。

如果您想表示一些亚洲语言,或几种不同的 语言,您需要将一个字符编码为多个字节的编码。这可以是固定数字(例如在 UTF-32 和 UTF-16 中)或可变数字,例如当今最常见的 "popular" 编码 UTF-8。


回到Python:Python字符串接口承诺了许多属性,其中随机访问复杂度为O(1),这意味着即使是非常长的字符串也可以获取第1245个字符迅速地。这与紧凑的 UTF-8 编码冲突:因为一个 "character"(实际上:一个 unicode 代码点)有时是一个字节,有时是几个字节长,Python 不能直接跳转到内存地址 start_of_string + length_of_one_character * offset,因为 length_of_one_character 在 UTF-8 中有所不同。 Python 因此需要使用固定字节长度的编码。

出于优化原因,它并不总是使用 UCS-4 (~UTF-32),因为当 文本为 ASCII 时,这会浪费大量 space -只要。相反,Python 动态选择 Latin-1、UCS-2 或 UCS-4 来在内部存储字符串。


通过示例将所有内容组合在一起:

假设您要将字符串 "soluţie" 从一个编码为 UTF-8 的文件中存储到内存中。由于字母ţ需要两个字节表示,所以Python选择UCS-2:

characters | s       | o       | l       | u       | ţ       | i       | e         
     utf-8 |0x73     |0x6f     |0x6c     |0x75     |0xc5 0xa3|0x69     |0x65
     ucs-2 |0x00 0x73|0x00 0x6f|0x00 0x6c|0x00 0x75|0x01 0x63|0x00 0x69|0x00 0x65

如您所见,UTF-8(磁盘上的文件)需要 8 个字节,而 UCS-2 需要 14 个字节。

加上 Python 字符串和 Python 解释器本身的开销,您的计算再次有意义。


当您以二进制模式 (open(..., 'rb')) 打开文件时,您不会对字节进行解码,而是按原样使用它们。如果文件中有文本,这是有问题的(因为为了处理数据,你迟早要将它转换为字符串,然后你必须在其中进行解码),但如果它真的是二进制数据,比如作为图像,它很好(而且更好)。


这个答案包含简化。谨慎使用。