使用 pandas 创建空的 csv 文件

Create empty csv file with pandas

我正在通过多个 csv 文件进行交互,并希望将平均温度附加到一个空白的 csv 文件中。如何使用 pandas 创建一个空的 csv 文件?

for EachMonth in MonthsInAnalysis:
    TheCurrentMonth = pd.read_csv('MonthlyDataSplit/Day/Day%s.csv' % EachMonth)
    MeanDailyTemperaturesForCurrentMonth = TheCurrentMonth.groupby('Day')['AirTemperature'].mean().reset_index(name='MeanDailyAirTemperature')
    with open('my_csv.csv', 'a') as f:
        df.to_csv(f, header=False)

那么在上面的代码中,我如何在 for 循环之前创建 my_csv.csv

请注意,我知道您可以创建一个数据框,然后将数据框保存到 csv,但我想知道您是否可以跳过这一步。

就上下文而言,我有以下 csv 文件:

每一个都有以下结构:

每个文件的“天”列最多显示 30 天。

我想输出一个如下所示的 csv 文件:

但显然包括所有月份的所有日期。

我的问题是我不知道每个分析中包含哪些月份,因此我想使用一个 for 循环,该循环使用一个包含该信息的列表来访问相关的 csvs,然后计算平均温度将其全部保存到一个 csv 中。

输入文本:

    Unnamed: 0  AirTemperature  AirHumidity SoilTemperature SoilMoisture    LightIntensity  WindSpeed   Year    Month   Day Hour    Minute  Second  TimeStamp   MonthCategorical    TimeOfDay
6   6   18  84  17  41  40  4   2016    1   1   6   1   1   10106   January Day
7   7   20  88  22  92  31  0   2016    1   1   7   1   1   10107   January Day
8   8   23  1   22  59  3   0   2016    1   1   8   1   1   10108   January Day
9   9   23  3   22  72  41  4   2016    1   1   9   1   1   10109   January Day
10  10  24  63  23  83  85  0   2016    1   1   10  1   1   10110   January Day
11  11  29  73  27  50  1   4   2016    1   1   11  1   1   10111   January Day

问题有点不清楚,但假设您必须逐月迭代,并按照说明应用 groupby,只需使用:

 #Before loops
 dflist=[]

然后在每个循环中执行如下操作:

 dflist.append(MeanDailyTemperaturesForCurrentMonth)

然后最后:

 final_df = pd.concat([dflist], axis=1)

这会将所有内容合并到一个数据框中。

查看:

http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html

http://pandas.pydata.org/pandas-docs/stable/merging.html

只需以写入模式打开文件即可创建它。

with open('my_csv.csv', 'w'):
    pass

无论如何,我认为您不应该多次打开和关闭文件。你最好打开一次文件,多写几次。

with open('my_csv.csv', 'w') as f:
    for EachMonth in MonthsInAnalysis:
        TheCurrentMonth = pd.read_csv('MonthlyDataSplit/Day/Day%s.csv' % EachMonth)
        MeanDailyTemperaturesForCurrentMonth = TheCurrentMonth.groupby('Day')['AirTemperature'].mean().reset_index(name='MeanDailyAirTemperature')
        df.to_csv(f, header=False)

我会这样做:首先将所有 CSV 文件(但只有您真正需要的列)读取到一个 DF 中,然后制作 groupby(['Year','Month','Day']).mean() 并将生成的 DF 保存到 CSV 文件中:

import glob
import pandas as pd

fmask = 'MonthlyDataSplit/Day/Day*.csv'
df = pd.concat((pd.read_csv(f, sep=',', usecols=['Year','Month','Day','AirTemperature']) for f in glob.glob(fmask)))
df.groupby(['Year','Month','Day']).mean().to_csv('my_csv.csv')

如果想忽略年份:

import glob
import pandas as pd

fmask = 'MonthlyDataSplit/Day/Day*.csv'
df = pd.concat((pd.read_csv(f, sep=',', usecols=['Month','Day','AirTemperature']) for f in glob.glob(fmask)))
df.groupby(['Month','Day']).mean().to_csv('my_csv.csv')

一些细节:

(pd.read_csv(f, sep=',', usecols=['Month','Day','AirTemperature']) for f in glob.glob('*.csv'))

将从您的所有 CSV 文件生成数据帧元组

pd.concat(...)

会将它们连接成单个 DF

df.groupby(['Year','Month','Day']).mean()

将生成需要的报告作为数据框,可能会保存到新的 CSV 文件中:

.to_csv('my_csv.csv')

创建空白 csv 文件就这么简单

import pandas as pd

pd.DataFrame({}).to_csv("filename.csv")