使用 pandas(和 glob?)从一个目录中合并大量(csv)数据文本文件
Use pandas (and glob?) to merge numerous (csv) data text files from a directory
我有许多 X、Y(整数)列数据的独立仪器文件。所有数组都是相同的维度。每个文件的 X 列相同,Y 列编号不同。如果可能的话,我想将连续文件的 Y 列连接到第一个文件并写入一个包含第一个 X 和多个 Y 的新单个大数组?像这样:
file1=X1 Y1 file2=X1 Y2 file3=X1 Y3...
新文件结果应为:X1 Y1 Y2 Y3...
一直在查看以下变体:
import pandas
data = pandas.read_csv('file1.csv')
# print(data) returns the 1st file array ok
需要打开并遍历连续文件以将 Y 列连接到文件 1。
你可以这样做:
import os
import glob
import pandas as pd
def get_merged_csv(flist, **kwargs):
return pd.concat([pd.read_csv(f, **kwargs).set_index('X') for f in flist], axis=1).reset_index()
path = 'C:/Users/csvfiles'
fmask = os.path.join(path, '*mask*.csv')
df = get_merged_csv(glob.glob(fmask))
为了像 Y1
、Y2
等命名您的 Y
列:
cols = ['{0[0]}{0[1]}'.format(t) for t in zip(df.columns[1:], range(1, len(df.columns)))]
df.columns = df.columns.tolist()[:1] + cols
测试数据:
a.csv:
X,Y
1,11
2,12
3,13
b.csv:
X,Y
1,21
2,22
3,23
c.csv:
X,Y
1,31
2,32
3,33
测试:
In [215]: df = get_merged_csv(glob.glob(fmask))
In [216]: df
Out[216]:
X Y Y Y
0 1 11 21 31
1 2 12 22 32
2 3 13 23 33
In [217]: cols = ['{0[0]}{0[1]}'.format(t) for t in zip(df.columns[1:], range(1, len(df.columns)))]
In [218]: cols
Out[218]: ['Y1', 'Y2', 'Y3']
In [219]: df.columns = df.columns.tolist()[:1] + cols
In [220]: df
Out[220]:
X Y1 Y2 Y3
0 1 11 21 31
1 2 12 22 32
2 3 13 23 33
我有许多 X、Y(整数)列数据的独立仪器文件。所有数组都是相同的维度。每个文件的 X 列相同,Y 列编号不同。如果可能的话,我想将连续文件的 Y 列连接到第一个文件并写入一个包含第一个 X 和多个 Y 的新单个大数组?像这样:
file1=X1 Y1 file2=X1 Y2 file3=X1 Y3...
新文件结果应为:X1 Y1 Y2 Y3...
一直在查看以下变体:
import pandas
data = pandas.read_csv('file1.csv')
# print(data) returns the 1st file array ok
需要打开并遍历连续文件以将 Y 列连接到文件 1。
你可以这样做:
import os
import glob
import pandas as pd
def get_merged_csv(flist, **kwargs):
return pd.concat([pd.read_csv(f, **kwargs).set_index('X') for f in flist], axis=1).reset_index()
path = 'C:/Users/csvfiles'
fmask = os.path.join(path, '*mask*.csv')
df = get_merged_csv(glob.glob(fmask))
为了像 Y1
、Y2
等命名您的 Y
列:
cols = ['{0[0]}{0[1]}'.format(t) for t in zip(df.columns[1:], range(1, len(df.columns)))]
df.columns = df.columns.tolist()[:1] + cols
测试数据:
a.csv:
X,Y
1,11
2,12
3,13
b.csv:
X,Y
1,21
2,22
3,23
c.csv:
X,Y
1,31
2,32
3,33
测试:
In [215]: df = get_merged_csv(glob.glob(fmask))
In [216]: df
Out[216]:
X Y Y Y
0 1 11 21 31
1 2 12 22 32
2 3 13 23 33
In [217]: cols = ['{0[0]}{0[1]}'.format(t) for t in zip(df.columns[1:], range(1, len(df.columns)))]
In [218]: cols
Out[218]: ['Y1', 'Y2', 'Y3']
In [219]: df.columns = df.columns.tolist()[:1] + cols
In [220]: df
Out[220]:
X Y1 Y2 Y3
0 1 11 21 31
1 2 12 22 32
2 3 13 23 33