存储大数据 python

store large data python

我是 Python 的新手。最近，我有一个项目处理 xml 文件中的大量健康数据。这是一个例子：

在我的数据中，大约有 100 个，每个都有不同的 id、origin、type 和 text。我想将它们全部存储在数据中，以便我可以训练这个数据集，我想到的第一个想法是使用 2D arry（一个存储 id 和 origin，另一个存储文本）。但是，我发现特征太多了，我想知道每个文档都有哪些特征。

谁能推荐一个最好的方法。

为了可扩展性、简单性和维护性，您应该规范化这些数据，构建数据库模式并将这些内容移动到数据库（sqlite、postgres、mysql，等等）

这会将复杂的数据逻辑移出 python。这是Model-view-controller的典型做法。

创建一个 python 字典并遍历它既快又脏。如果您想从数据中获得实际意义，这将很快成为巨大的技术时间浪费。