遍历巨大的 XML 文件并获取值?
Iterate through Huge XML File and get the Value?
我想遍历用户 Whosebug 转储文件。问题是它非常巨大,而且是 XML。对我来说 xml 是一个新主题。我阅读了一些文档和 Whosebug Post 但由于某些原因它不起作用。
XML格式:
<users>
<row Id="-1" Reputation="1"
CreationDate="2008-07-31T00:00:00.000"
DisplayName="Community"
LastAccessDate="2008-08-26T00:16:53.810"
WebsiteUrl="http://meta.stackexchange.com/"
Location="on the server farm" AboutMe="<p>Hi, I'm not really a person.&" Views="649" UpVotes="245983" DownVotes="924377" AccountId="-1"
/>
</users>
代码:
from xml.etree.ElementTree import iterparse
for evt, elem in iterparse('data/Users.xml', events=('start','end')):
print(evt, elem)
我得到的:
For 循环输出了一堆十六进制代码。最后我得到一个内存异常。也许这是正常的,因为我第二次尝试它并且它迭代 xml 非常快 0.13 seconds
start <Element 'row' at 0x04CC16F0>
end <Element 'row' at 0x04CC16F0>
start <Element 'row' at 0x04CC1810>
希望大家帮忙解答一下问题。我如何获得此输出的值?我想把它保存到 SQL.
所有文件都是 199 GB(徽章、评论、Post链接、Post历史、用户、Posts、标签和投票)。
此问题的 Users.xml 为 2,49 GB。但我想把所有来自 SO 的数据都放入数据库中。
您忠实的
HanahDevelope
看起来您只需要遍历所有 row
元素的 end
事件并对属性做一些事情:
from xml.etree.ElementTree import iterparse
for evt, elem in iterparse('data/Users.xml', events=('end',)):
if elem.tag == 'row':
user_fields = elem.attrib
print(user_fields)
这将输出:
{'DisplayName': 'Community', 'Views': '649', 'DownVotes': '924377', 'LastAccessDate': '2008-08-26T00:16:53.810', 'Id': '-1', 'WebsiteUrl': 'http://meta.stackexchange.com/', 'Reputation': '1', 'Location': 'on the server farm', 'UpVotes': '245983', 'CreationDate': '2008-07-31T00:00:00.000', 'AboutMe': "<p>Hi, I'm not really a person.", 'AccountId': '-1'}
我想遍历用户 Whosebug 转储文件。问题是它非常巨大,而且是 XML。对我来说 xml 是一个新主题。我阅读了一些文档和 Whosebug Post 但由于某些原因它不起作用。
XML格式:
<users>
<row Id="-1" Reputation="1"
CreationDate="2008-07-31T00:00:00.000"
DisplayName="Community"
LastAccessDate="2008-08-26T00:16:53.810"
WebsiteUrl="http://meta.stackexchange.com/"
Location="on the server farm" AboutMe="<p>Hi, I'm not really a person.&" Views="649" UpVotes="245983" DownVotes="924377" AccountId="-1"
/>
</users>
代码:
from xml.etree.ElementTree import iterparse
for evt, elem in iterparse('data/Users.xml', events=('start','end')):
print(evt, elem)
我得到的:
For 循环输出了一堆十六进制代码。最后我得到一个内存异常。也许这是正常的,因为我第二次尝试它并且它迭代 xml 非常快 0.13 seconds
start <Element 'row' at 0x04CC16F0>
end <Element 'row' at 0x04CC16F0>
start <Element 'row' at 0x04CC1810>
希望大家帮忙解答一下问题。我如何获得此输出的值?我想把它保存到 SQL.
所有文件都是 199 GB(徽章、评论、Post链接、Post历史、用户、Posts、标签和投票)。 此问题的 Users.xml 为 2,49 GB。但我想把所有来自 SO 的数据都放入数据库中。
您忠实的
HanahDevelope
看起来您只需要遍历所有 row
元素的 end
事件并对属性做一些事情:
from xml.etree.ElementTree import iterparse
for evt, elem in iterparse('data/Users.xml', events=('end',)):
if elem.tag == 'row':
user_fields = elem.attrib
print(user_fields)
这将输出:
{'DisplayName': 'Community', 'Views': '649', 'DownVotes': '924377', 'LastAccessDate': '2008-08-26T00:16:53.810', 'Id': '-1', 'WebsiteUrl': 'http://meta.stackexchange.com/', 'Reputation': '1', 'Location': 'on the server farm', 'UpVotes': '245983', 'CreationDate': '2008-07-31T00:00:00.000', 'AboutMe': "<p>Hi, I'm not really a person.", 'AccountId': '-1'}