存储大数据 python

store large data python

我是 Python 的新手。最近,我有一个项目处理 xml 文件中的大量健康数据。 这是一个例子:

在我的数据中,大约有 100 个,每个都有不同的 id、origin、type 和 text。我想将它们全部存储在数据中,以便我可以训练这个数据集,我想到的第一个想法是使用 2D arry(一个存储 id 和 origin,另一个存储文本)。但是,我发现特征太多了,我想知道每个文档都有哪些特征。

谁能推荐一个最好的方法。

为了可扩展性、简单性和维护性,您应该规范化这些数据,构建数据库模式并将这些内容移动到数据库(sqlite、postgres、mysql,等等)

这会将复杂的数据逻辑移出 python。这是Model-view-controller的典型做法。

创建一个 python 字典并遍历它既快又脏。如果您想从数据中获得实际意义,这将很快成为巨大的技术时间浪费。