如何从字典列表创建稀疏数据帧

How to create a sparse DataFrame from a list of dicts

我从这样的字典列表中创建 DataFrame

pd.DataFrame([{"id":"a","v0":3,"v2":"foo"},
              {"id":"b","v1":1,"v4":"ouch"}]).set_index(
                 "id",verify_integrity=True)
     v0   v2   v1    v4
id                    
a   3.0  foo  NaN   NaN
b   NaN  NaN  1.0  ouch

唉,对于某些输入,我在 DataFrame 构造函数中 运行 超出了 RAM,我想知道是否有办法让 pandas 产生一个 sparse DataFrame 来自字典列表

我建议为此使用 dytpe='Sparse'

如果所有元素都是数字,您可以使用 dytpe='Sparse'dytpe='Sparse[int]'dytpe='Sparse[float]'

data = [{"id":'a',"v0":3,"v2":6},
        {"id":'b',"v1":1,"v4":7}]
index = [item.pop('id') for item in data]
pd.DataFrame(data, index=index, dtype="Sparse")

如果任何值是字符串,您必须使用 dytpe='Sparse[str]'.

data = [{"id":'a',"v0":3,"v2":'foo'},
        {"id":'b',"v1":1,"v4":'ouch'}]
df = pd.DataFrame(data, dtype="Sparse[str]").set_index("id",verify_integrity=True)