连接不共享时间戳值的数据集

Question

我有两个不同的 csv 文件，对应于一个人的 HRV (csv no1) 和他们的情绪 (csv no2)。第一个数据集使用 UNIX 时间戳来捕获 HRV 值，另一个数据集记录了人们每 5 秒观察自己时的情绪。

由于每五秒捕获一次情绪，每秒捕获一次 HRV 值，我想遍历 HRV 值数据集的行并创建一个包含每组 5 行的平均总和的新数据集（或只是一个新列，无论有效）。 例如，前 5 行的平均值对应于该情绪，接下来的 5 行对应于其他情绪等。

我想这样做，这样我最终就可以 link 他们在一起了。

关于如何做到这一点有什么想法吗？

不幸的是，我无法提供易于复制的代码片段，因为数据集不是我可以共享的，但是，我可以通过一些屏幕截图指出我的数据集的外观：

这是具有 HRV 值的数据集：

这是具有情绪值的数据集：

Answer 1

如果你能提供数据来测试就好了，即使它不是真实的。我使用下一个代码创建数据：

dates = pd.date_range('10-01-2016', periods=50, freq='S')
df = pd.DataFrame({'value': 100 + np.random.randint(-5, 10, 50).cumsum()},index=dates)
df.head()

我认为 resample from pandas could be useful. Review the Offset aliases 在文档中。

df.resample('5S').mean().head()

请注意，在我的示例中，时间戳是索引，另外，我使用平均值作为要传递的值，但我真的不知道您想使用什么。在此之后，您可以合并数据。

连接不共享时间戳值的数据集

Concatenate datasets that don't share timestamp values

python

unix-timestamp

pandas