使用 pandas 创建空的 csv 文件
Create empty csv file with pandas
我正在通过多个 csv 文件进行交互,并希望将平均温度附加到一个空白的 csv 文件中。如何使用 pandas 创建一个空的 csv 文件?
for EachMonth in MonthsInAnalysis:
TheCurrentMonth = pd.read_csv('MonthlyDataSplit/Day/Day%s.csv' % EachMonth)
MeanDailyTemperaturesForCurrentMonth = TheCurrentMonth.groupby('Day')['AirTemperature'].mean().reset_index(name='MeanDailyAirTemperature')
with open('my_csv.csv', 'a') as f:
df.to_csv(f, header=False)
那么在上面的代码中,我如何在 for
循环之前创建 my_csv.csv
?
请注意,我知道您可以创建一个数据框,然后将数据框保存到 csv,但我想知道您是否可以跳过这一步。
就上下文而言,我有以下 csv 文件:
每一个都有以下结构:
每个文件的“天”列最多显示 30 天。
我想输出一个如下所示的 csv 文件:
但显然包括所有月份的所有日期。
我的问题是我不知道每个分析中包含哪些月份,因此我想使用一个 for 循环,该循环使用一个包含该信息的列表来访问相关的 csvs,然后计算平均温度将其全部保存到一个 csv 中。
输入文本:
Unnamed: 0 AirTemperature AirHumidity SoilTemperature SoilMoisture LightIntensity WindSpeed Year Month Day Hour Minute Second TimeStamp MonthCategorical TimeOfDay
6 6 18 84 17 41 40 4 2016 1 1 6 1 1 10106 January Day
7 7 20 88 22 92 31 0 2016 1 1 7 1 1 10107 January Day
8 8 23 1 22 59 3 0 2016 1 1 8 1 1 10108 January Day
9 9 23 3 22 72 41 4 2016 1 1 9 1 1 10109 January Day
10 10 24 63 23 83 85 0 2016 1 1 10 1 1 10110 January Day
11 11 29 73 27 50 1 4 2016 1 1 11 1 1 10111 January Day
问题有点不清楚,但假设您必须逐月迭代,并按照说明应用 groupby,只需使用:
#Before loops
dflist=[]
然后在每个循环中执行如下操作:
dflist.append(MeanDailyTemperaturesForCurrentMonth)
然后最后:
final_df = pd.concat([dflist], axis=1)
这会将所有内容合并到一个数据框中。
查看:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html
只需以写入模式打开文件即可创建它。
with open('my_csv.csv', 'w'):
pass
无论如何,我认为您不应该多次打开和关闭文件。你最好打开一次文件,多写几次。
with open('my_csv.csv', 'w') as f:
for EachMonth in MonthsInAnalysis:
TheCurrentMonth = pd.read_csv('MonthlyDataSplit/Day/Day%s.csv' % EachMonth)
MeanDailyTemperaturesForCurrentMonth = TheCurrentMonth.groupby('Day')['AirTemperature'].mean().reset_index(name='MeanDailyAirTemperature')
df.to_csv(f, header=False)
我会这样做:首先将所有 CSV 文件(但只有您真正需要的列)读取到一个 DF 中,然后制作 groupby(['Year','Month','Day']).mean()
并将生成的 DF 保存到 CSV 文件中:
import glob
import pandas as pd
fmask = 'MonthlyDataSplit/Day/Day*.csv'
df = pd.concat((pd.read_csv(f, sep=',', usecols=['Year','Month','Day','AirTemperature']) for f in glob.glob(fmask)))
df.groupby(['Year','Month','Day']).mean().to_csv('my_csv.csv')
如果想忽略年份:
import glob
import pandas as pd
fmask = 'MonthlyDataSplit/Day/Day*.csv'
df = pd.concat((pd.read_csv(f, sep=',', usecols=['Month','Day','AirTemperature']) for f in glob.glob(fmask)))
df.groupby(['Month','Day']).mean().to_csv('my_csv.csv')
一些细节:
(pd.read_csv(f, sep=',', usecols=['Month','Day','AirTemperature']) for f in glob.glob('*.csv'))
将从您的所有 CSV 文件生成数据帧元组
pd.concat(...)
会将它们连接成单个 DF
df.groupby(['Year','Month','Day']).mean()
将生成需要的报告作为数据框,可能会保存到新的 CSV 文件中:
.to_csv('my_csv.csv')
创建空白 csv 文件就这么简单
import pandas as pd
pd.DataFrame({}).to_csv("filename.csv")
我正在通过多个 csv 文件进行交互,并希望将平均温度附加到一个空白的 csv 文件中。如何使用 pandas 创建一个空的 csv 文件?
for EachMonth in MonthsInAnalysis:
TheCurrentMonth = pd.read_csv('MonthlyDataSplit/Day/Day%s.csv' % EachMonth)
MeanDailyTemperaturesForCurrentMonth = TheCurrentMonth.groupby('Day')['AirTemperature'].mean().reset_index(name='MeanDailyAirTemperature')
with open('my_csv.csv', 'a') as f:
df.to_csv(f, header=False)
那么在上面的代码中,我如何在 for
循环之前创建 my_csv.csv
?
请注意,我知道您可以创建一个数据框,然后将数据框保存到 csv,但我想知道您是否可以跳过这一步。
就上下文而言,我有以下 csv 文件:
每一个都有以下结构:
每个文件的“天”列最多显示 30 天。
我想输出一个如下所示的 csv 文件:
但显然包括所有月份的所有日期。
我的问题是我不知道每个分析中包含哪些月份,因此我想使用一个 for 循环,该循环使用一个包含该信息的列表来访问相关的 csvs,然后计算平均温度将其全部保存到一个 csv 中。
输入文本:
Unnamed: 0 AirTemperature AirHumidity SoilTemperature SoilMoisture LightIntensity WindSpeed Year Month Day Hour Minute Second TimeStamp MonthCategorical TimeOfDay
6 6 18 84 17 41 40 4 2016 1 1 6 1 1 10106 January Day
7 7 20 88 22 92 31 0 2016 1 1 7 1 1 10107 January Day
8 8 23 1 22 59 3 0 2016 1 1 8 1 1 10108 January Day
9 9 23 3 22 72 41 4 2016 1 1 9 1 1 10109 January Day
10 10 24 63 23 83 85 0 2016 1 1 10 1 1 10110 January Day
11 11 29 73 27 50 1 4 2016 1 1 11 1 1 10111 January Day
问题有点不清楚,但假设您必须逐月迭代,并按照说明应用 groupby,只需使用:
#Before loops
dflist=[]
然后在每个循环中执行如下操作:
dflist.append(MeanDailyTemperaturesForCurrentMonth)
然后最后:
final_df = pd.concat([dflist], axis=1)
这会将所有内容合并到一个数据框中。
查看:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html
只需以写入模式打开文件即可创建它。
with open('my_csv.csv', 'w'):
pass
无论如何,我认为您不应该多次打开和关闭文件。你最好打开一次文件,多写几次。
with open('my_csv.csv', 'w') as f:
for EachMonth in MonthsInAnalysis:
TheCurrentMonth = pd.read_csv('MonthlyDataSplit/Day/Day%s.csv' % EachMonth)
MeanDailyTemperaturesForCurrentMonth = TheCurrentMonth.groupby('Day')['AirTemperature'].mean().reset_index(name='MeanDailyAirTemperature')
df.to_csv(f, header=False)
我会这样做:首先将所有 CSV 文件(但只有您真正需要的列)读取到一个 DF 中,然后制作 groupby(['Year','Month','Day']).mean()
并将生成的 DF 保存到 CSV 文件中:
import glob
import pandas as pd
fmask = 'MonthlyDataSplit/Day/Day*.csv'
df = pd.concat((pd.read_csv(f, sep=',', usecols=['Year','Month','Day','AirTemperature']) for f in glob.glob(fmask)))
df.groupby(['Year','Month','Day']).mean().to_csv('my_csv.csv')
如果想忽略年份:
import glob
import pandas as pd
fmask = 'MonthlyDataSplit/Day/Day*.csv'
df = pd.concat((pd.read_csv(f, sep=',', usecols=['Month','Day','AirTemperature']) for f in glob.glob(fmask)))
df.groupby(['Month','Day']).mean().to_csv('my_csv.csv')
一些细节:
(pd.read_csv(f, sep=',', usecols=['Month','Day','AirTemperature']) for f in glob.glob('*.csv'))
将从您的所有 CSV 文件生成数据帧元组
pd.concat(...)
会将它们连接成单个 DF
df.groupby(['Year','Month','Day']).mean()
将生成需要的报告作为数据框,可能会保存到新的 CSV 文件中:
.to_csv('my_csv.csv')
创建空白 csv 文件就这么简单
import pandas as pd
pd.DataFrame({}).to_csv("filename.csv")