具有共享内存的二维 python 字典

two-dimensional python dict with shared memory

我需要将数据从 csv 文件或 excel sheet(包含行和列)加载到二维 python 字典中。例如,如果 excel sheet 中的数据如下所示:

    name  age  gender location
1   Jim   18    male   China
2   Ross  18    male   China
3   Cara  19    female Japan
4   Ted   18    male   China

那么输出 python dict 应该是这样的:

data = {
  1: {'name': 'Jim', 'age': 18, 'gender': 'male', 'location': 'China'},
  2: {'name': 'Ross', 'age': 18, 'gender': 'male', 'location': 'China'},
  3: {'name': 'Cara', 'age': 19, 'gender': 'female', 'location': 'Japan'},
  4: {'name': 'Ted', 'age': 18, 'gender': 'male', 'location': 'China'}
}

你可以看到这个二维字典中有很多重复的信息(对于真实数据,它具有相同的条件),所以我想出了一个开发一个共享内存的新字典的想法.具体来说,在上面的示例中,我希望我的二维字典只在多行中保存 {'age': 18, 'gender': 'male', 'location': 'China'} 的一个副本(这些行不需要相邻)。如果我们调用 data[1]['age']data[2]['age'],它应该在同一个提取的小型共享字典中进行查找。

我看过python dict的源代码,我知道python dict只保存指向键和值的指针(通常对于小的int和string对象,不同的指针可能指向同一个对象)。所以当我的意思是我只想保存一个副本时,我的意思是指针的一个副本。

知道如何设计这个字典吗?非常感谢!!!

编辑

对不起,我忘记说了。此二维字典中的数据将是只读的。

我猜你问的是数据压缩解决方案,然后应该考虑内存大小和引用的使用。最小的内存占用空间通常属于一个整数,它应该至少与内存引用一样小,所以我会尝试将所有内容映射到整数,除非它太不方便。此外,列表比字典小,允许直接快速索引。

这是一个可能会激发一些想法的替代实现:

import sys

data = {
  1: {'name': 'Jim', 'age': 18, 'gender': 'male', 'location': 'China'},
  2: {'name': 'Ross', 'age': 18, 'gender': 'male', 'location': 'China'},
  3: {'name': 'Cara', 'age': 19, 'gender': 'female', 'location': 'Japan'},
  4: {'name': 'Ted', 'age': 18, 'gender': 'male', 'location': 'China'}
}

In [43]: sys.getsizeof(data)
Out[43]: 280    # bytes

data_list = [ 
  ('Jim', 18, 0, 'CH'),     # 'CH' => 'China'
  ('Ross', 18, 0, 'CH'),    #  0 => Female, 1 => Male
  ('Cara', 19, 1, 'JP'),    # 'JP' => 'Japan'
  ('Ted', 18, 0, 'CH')
]


In [44]: sys.getsizeof(data_list)
Out[44]: 104   # bytes

_name, _age, _gender, _location = 0, 1, 2, 3

In [45]: data_list[2][_age]  # access as 2D array instead of 2-level dict
Out[45]: 19

上面的解决方案会稍微慢一些,但对大字符串有一些好处。除非每条记录开始变长,否则使用引用可能不会为您节省任何东西。最后,如果您将所有值替换为整数而不是字符串名称和国家/地区代码,您将使用 Python 列表进行压缩。

如果您真的想选择能够提供最佳压缩效果的数字代码,请查看霍夫曼编码,例如此站点:http://www.geeksforgeeks.org/greedy-algorithms-set-3-huffman-coding