pandas - 根据满足条件的列合并行
pandas - merge rows based on column meeting a condition
我是 pandas 的新手,我不知道最好的方法。
我有两个文件放在两个不同的数据框中:
>> frame1.head()
Out[64]:
Date and Time Sample Unnamed: 2
0 05/18/2017 08:38:37:490 163.7 NaN
1 05/18/2017 08:39:37:490 164.5 NaN
2 05/18/2017 08:40:37:490 148.7 NaN
3 05/18/2017 08:41:37:490 111.2 NaN
4 05/18/2017 08:42:37:490 83.6 NaN
>>frame2.head()
Out[66]:
Date and Time Sample Unnamed: 2
0 05/18/2017 08:38:38:490 7.5 NaN
1 05/18/2017 08:39:38:490 7.5 NaN
2 05/18/2017 08:40:38:490 7.5 NaN
3 05/18/2017 08:41:38:490 7.5 NaN
4 05/18/2017 08:42:38:490 7.5 NaN
我需要 "merge" 第 1 帧中的任何行与第 2 帧中的任何行,它们之间的间隔在一秒内。
例如,
来自第 1 帧的这一行:
0 05/18/2017 08:38:37:490 163.7 NaN
在第 2 帧这一行的一秒内:
0 05/18/2017 08:38:38:490 7.5 NaN
所以当它们是 "merged" 输出应该是这样的:
0 05/18/2017 08:38:37:490 163.7 7.5 NaN NaN
换句话说,一行的时间被另一行替换,所有剩余的列只是附加的
我想到的最接近的做法是:
d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer')
>>d3.head()
Date and Time Sample_x Unnamed: 2_x Sample_y Unnamed: 2_y
0 05/18/2017 08:38:37:490 163.7 NaN NaN NaN
1 05/18/2017 08:39:37:490 164.5 NaN NaN NaN
2 05/18/2017 08:40:37:490 148.7 NaN NaN NaN
3 05/18/2017 08:41:37:490 111.2 NaN NaN NaN
4 05/18/2017 08:42:37:490 83.6 NaN NaN NaN
但是,这不是条件合并..如果它们在一秒内,我需要合并,而不仅仅是完全相同。
我知道我可以将时间与类似的东西进行比较:
def compare_time(temp, sec=1):
return abs(current - temp) <= datetime.timedelta(seconds=sec)
然后使用 .apply() 或其他东西...但我不知道如何将所有这些拼凑起来
编辑: 看起来 pd.merge_asof 做得很好,但我还需要保留在最后一帧中不匹配/合并的行作为嗯
编辑 2:
df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
'sample': np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
'sample': np.arange(4) })
blah = pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') ) \
.append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
blah
returns:
datetime sample_x sample_y
0 2017-01-01 00:00:00.000 0 100.0
1 2017-01-01 00:00:00.300 1 100.0
2 2017-01-01 00:00:00.600 2 100.0
3 2017-01-01 00:00:00.900 3 100.0
0 2017-01-01 00:00:00.000 100 NaN
1 2017-01-01 00:00:01.000 101 NaN
2 2017-01-01 00:00:02.000 102 NaN
3 2017-01-01 00:00:03.000 103 NaN
注意它保留了原始行索引(零被列出了两次)..
您可以按照@Wen 的建议使用merge_asof
,但一定要指定tolerance
的可选值。还要考虑设置匹配项 direction
的选项值,可以是 'backward'(默认)、'nearest' 或 'forward'.
pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
下面是对示例数据的更详细解释(请注意,我只是在创建新的示例数据,因为我只能看到您实际数据的前几行):
df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
'sample': np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
'sample': np.arange(4) })
df1
Out[208]:
datetime sample
0 2017-01-01 00:00:00 100
1 2017-01-01 00:00:01 101
2 2017-01-01 00:00:02 102
3 2017-01-01 00:00:03 103
df2
Out[209]:
datetime sample
0 2017-01-01 00:00:00.000 0
1 2017-01-01 00:00:00.300 1
2 2017-01-01 00:00:00.600 2
3 2017-01-01 00:00:00.900 3
pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
Out[210]:
datetime sample_x sample_y
0 2017-01-01 00:00:00 100 0.0
1 2017-01-01 00:00:01 101 3.0
2 2017-01-01 00:00:02 102 NaN
3 2017-01-01 00:00:03 103 NaN
请注意 merge_asof
执行左连接,因此您可以通过更改 df1 和 df2 的顺序得到不同的答案:
pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )
Out[218]:
datetime sample_x sample_y
0 2017-01-01 00:00:00.000 0 100
1 2017-01-01 00:00:00.300 1 100
2 2017-01-01 00:00:00.600 2 100
3 2017-01-01 00:00:00.900 3 100
编辑添加: 文档说 merge_asof
设计为左连接,但它似乎与真正的左连接不同,因为它排除了左数据框不匹配。要解决这个问题,您可以这样做:
pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') ) \
.append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
Out[236]:
datetime sample_x sample_y
0 2017-01-01 00:00:00 100 0.0
1 2017-01-01 00:00:01 101 3.0
2 2017-01-01 00:00:02 102 NaN
3 2017-01-01 00:00:03 103 NaN
请注意,您可能需要根据是否具有唯一索引 and/or 个唯一列来调整 drop_duplicates
。
我是 pandas 的新手,我不知道最好的方法。
我有两个文件放在两个不同的数据框中:
>> frame1.head()
Out[64]:
Date and Time Sample Unnamed: 2
0 05/18/2017 08:38:37:490 163.7 NaN
1 05/18/2017 08:39:37:490 164.5 NaN
2 05/18/2017 08:40:37:490 148.7 NaN
3 05/18/2017 08:41:37:490 111.2 NaN
4 05/18/2017 08:42:37:490 83.6 NaN
>>frame2.head()
Out[66]:
Date and Time Sample Unnamed: 2
0 05/18/2017 08:38:38:490 7.5 NaN
1 05/18/2017 08:39:38:490 7.5 NaN
2 05/18/2017 08:40:38:490 7.5 NaN
3 05/18/2017 08:41:38:490 7.5 NaN
4 05/18/2017 08:42:38:490 7.5 NaN
我需要 "merge" 第 1 帧中的任何行与第 2 帧中的任何行,它们之间的间隔在一秒内。
例如, 来自第 1 帧的这一行:
0 05/18/2017 08:38:37:490 163.7 NaN
在第 2 帧这一行的一秒内:
0 05/18/2017 08:38:38:490 7.5 NaN
所以当它们是 "merged" 输出应该是这样的:
0 05/18/2017 08:38:37:490 163.7 7.5 NaN NaN
换句话说,一行的时间被另一行替换,所有剩余的列只是附加的
我想到的最接近的做法是:
d3 = pd.merge(frame1, frame2, on='Date and Time (MM/DD/YYYY HH:MM:SS:sss)', how='outer')
>>d3.head()
Date and Time Sample_x Unnamed: 2_x Sample_y Unnamed: 2_y
0 05/18/2017 08:38:37:490 163.7 NaN NaN NaN
1 05/18/2017 08:39:37:490 164.5 NaN NaN NaN
2 05/18/2017 08:40:37:490 148.7 NaN NaN NaN
3 05/18/2017 08:41:37:490 111.2 NaN NaN NaN
4 05/18/2017 08:42:37:490 83.6 NaN NaN NaN
但是,这不是条件合并..如果它们在一秒内,我需要合并,而不仅仅是完全相同。
我知道我可以将时间与类似的东西进行比较:
def compare_time(temp, sec=1):
return abs(current - temp) <= datetime.timedelta(seconds=sec)
然后使用 .apply() 或其他东西...但我不知道如何将所有这些拼凑起来
编辑: 看起来 pd.merge_asof 做得很好,但我还需要保留在最后一帧中不匹配/合并的行作为嗯
编辑 2:
df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
'sample': np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
'sample': np.arange(4) })
blah = pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') ) \
.append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
blah
returns:
datetime sample_x sample_y
0 2017-01-01 00:00:00.000 0 100.0
1 2017-01-01 00:00:00.300 1 100.0
2 2017-01-01 00:00:00.600 2 100.0
3 2017-01-01 00:00:00.900 3 100.0
0 2017-01-01 00:00:00.000 100 NaN
1 2017-01-01 00:00:01.000 101 NaN
2 2017-01-01 00:00:02.000 102 NaN
3 2017-01-01 00:00:03.000 103 NaN
注意它保留了原始行索引(零被列出了两次)..
您可以按照@Wen 的建议使用merge_asof
,但一定要指定tolerance
的可选值。还要考虑设置匹配项 direction
的选项值,可以是 'backward'(默认)、'nearest' 或 'forward'.
pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
下面是对示例数据的更详细解释(请注意,我只是在创建新的示例数据,因为我只能看到您实际数据的前几行):
df1 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods= 4,freq='s'),
'sample': np.arange(4)+100 })
df2 = pd.DataFrame({ 'datetime':pd.date_range('1-1-2017', periods=4,freq='300ms'),
'sample': np.arange(4) })
df1
Out[208]:
datetime sample
0 2017-01-01 00:00:00 100
1 2017-01-01 00:00:01 101
2 2017-01-01 00:00:02 102
3 2017-01-01 00:00:03 103
df2
Out[209]:
datetime sample
0 2017-01-01 00:00:00.000 0
1 2017-01-01 00:00:00.300 1
2 2017-01-01 00:00:00.600 2
3 2017-01-01 00:00:00.900 3
pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') )
Out[210]:
datetime sample_x sample_y
0 2017-01-01 00:00:00 100 0.0
1 2017-01-01 00:00:01 101 3.0
2 2017-01-01 00:00:02 102 NaN
3 2017-01-01 00:00:03 103 NaN
请注意 merge_asof
执行左连接,因此您可以通过更改 df1 和 df2 的顺序得到不同的答案:
pd.merge_asof( df2, df1, on='datetime', tolerance=pd.Timedelta('1s') )
Out[218]:
datetime sample_x sample_y
0 2017-01-01 00:00:00.000 0 100
1 2017-01-01 00:00:00.300 1 100
2 2017-01-01 00:00:00.600 2 100
3 2017-01-01 00:00:00.900 3 100
编辑添加: 文档说 merge_asof
设计为左连接,但它似乎与真正的左连接不同,因为它排除了左数据框不匹配。要解决这个问题,您可以这样做:
pd.merge_asof( df1, df2, on='datetime', tolerance=pd.Timedelta('1s') ) \
.append(df1.rename(columns={'sample':'sample_x'})).drop_duplicates('sample_x')
Out[236]:
datetime sample_x sample_y
0 2017-01-01 00:00:00 100 0.0
1 2017-01-01 00:00:01 101 3.0
2 2017-01-01 00:00:02 102 NaN
3 2017-01-01 00:00:03 103 NaN
请注意,您可能需要根据是否具有唯一索引 and/or 个唯一列来调整 drop_duplicates
。