Stata 和 Python (Pandas) 之间最有效的 I/O 设置
most efficient I/O setup between Stata and Python (Pandas)
我正在使用 Stata 处理一些数据,将数据导出到 csv 文件中,然后使用 pandas read_csv 函数将其加载到 Python 中。
问题是一切都很慢。从 Stata 导出到 csv 文件需要很长时间(以 dta Stata 格式导出要快得多),并且通过 read_csv 加载数据也非常慢。使用 read_stata pandas 函数更糟。
请问还有其他选择吗?喜欢导出 csv 以外的格式?我的 csv 数据集大约有 6-7 Gb。
感谢任何帮助
谢谢
相当高效pd.read_stata()/.to_stata()
,参见here
我正在使用 Stata 处理一些数据,将数据导出到 csv 文件中,然后使用 pandas read_csv 函数将其加载到 Python 中。
问题是一切都很慢。从 Stata 导出到 csv 文件需要很长时间(以 dta Stata 格式导出要快得多),并且通过 read_csv 加载数据也非常慢。使用 read_stata pandas 函数更糟。
请问还有其他选择吗?喜欢导出 csv 以外的格式?我的 csv 数据集大约有 6-7 Gb。
感谢任何帮助
谢谢
相当高效pd.read_stata()/.to_stata()
,参见here