连接不共享时间戳值的数据集

Concatenate datasets that don't share timestamp values

我有两个不同的 csv 文件,对应于一个人的 HRV (csv no1) 和他们的情绪 (csv no2)。第一个数据集使用 UNIX 时间戳来捕获 HRV 值,另一个数据集记录了人们每 5 秒观察自己时的情绪。

由于每五秒捕获一次情绪,每秒捕获一次 HRV 值, 我想遍历 HRV 值数据集的行并创建一个包含每组 5 行的平均总和的新数据集(或只是一个新列,无论有效)。 例如,前 5 行的平均值对应于该情绪,接下来的 5 行对应于其他情绪等。

我想这样做,这样我最终就可以 link 他们在一起了。

关于如何做到这一点有什么想法吗?

不幸的是,我无法提供易于复制的代码片段,因为数据集不是我可以共享的,但是,我可以通过一些屏幕截图指出我的数据集的外观:

这是具有 HRV 值的数据集:

这是具有情绪值的数据集:

如果你能提供数据来测试就好了,即使它不是真实的。 我使用下一个代码创建数据:

dates = pd.date_range('10-01-2016', periods=50, freq='S')
df = pd.DataFrame({'value': 100 + np.random.randint(-5, 10, 50).cumsum()},index=dates)
df.head()

我认为 resample from pandas could be useful. Review the Offset aliases 在文档中。

df.resample('5S').mean().head()

请注意,在我的示例中,时间戳是索引,另外,我使用平均值作为要传递的值,但我真的不知道您想使用什么。在此之后,您可以合并数据。