数据格式提示 - 美国农业部 - 农产品
Data format tips - USDA - Agri Commodities
伙计们,
我正在尝试开发一个 python 解决方案,以从美国农业部 (USDA) 获取有关农产品的一些信息。
每个月,美国农业部都会发布一份报告,其中包含对玉米、大豆和小麦等商品的预估。
我的目标是准备一个访问网站的程序,获取正确的号码和 return 一条消息,例如:
--美国农业部估计美国大豆产量为 4.48 桶,高于上次报告中的 4.20 桶
但要开始它,我需要弄清楚哪种文件类型是从中获取此信息的最佳文件。哪个更容易处理所有这些信息?你怎么看?
美国农业部以 PDF、xls、XML 和 TXT 格式发布相同的数据库。 (您可以在此处查看文件:http://usda.mannlib.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1194)
我想从 xls 中获取它,这是我处理得更好的一种文件。但是查看数据库,我发现数据库之间存在一些差异。 txt 和 XML 文件似乎更准确...但我从未使用过它...不知道这是否是个好主意。
顺便说一句:如果您对库有一些处理文件和数据的建议,我也接受。 =D
谢谢!
我会使用 XML 格式,这是机器可读性最好的格式,并且会得到最多的支持。过去,我使用名为 lxml
的 XML 解析库和 BeautifulSoup
来提取我需要的数据。这两个都有很多文档。
伙计们, 我正在尝试开发一个 python 解决方案,以从美国农业部 (USDA) 获取有关农产品的一些信息。
每个月,美国农业部都会发布一份报告,其中包含对玉米、大豆和小麦等商品的预估。
我的目标是准备一个访问网站的程序,获取正确的号码和 return 一条消息,例如:
--美国农业部估计美国大豆产量为 4.48 桶,高于上次报告中的 4.20 桶
但要开始它,我需要弄清楚哪种文件类型是从中获取此信息的最佳文件。哪个更容易处理所有这些信息?你怎么看?
美国农业部以 PDF、xls、XML 和 TXT 格式发布相同的数据库。 (您可以在此处查看文件:http://usda.mannlib.cornell.edu/MannUsda/viewDocumentInfo.do?documentID=1194)
我想从 xls 中获取它,这是我处理得更好的一种文件。但是查看数据库,我发现数据库之间存在一些差异。 txt 和 XML 文件似乎更准确...但我从未使用过它...不知道这是否是个好主意。
顺便说一句:如果您对库有一些处理文件和数据的建议,我也接受。 =D
谢谢!
我会使用 XML 格式,这是机器可读性最好的格式,并且会得到最多的支持。过去,我使用名为 lxml
的 XML 解析库和 BeautifulSoup
来提取我需要的数据。这两个都有很多文档。