Python - 获取一个以时间为索引,以多个日期为列的数据框
Python - get a dataframe with time as index and several dates as columns
我想我需要一些有关 "melt" 功能的帮助。
我有一个如下所示的数据框:
如您所见,当前索引是时间。
但是,如果想实现如下:
背后的道理是想比较同一季度不同天的RZS值
我知道我可以使用 melt 函数,但我不知道这个函数是如何工作的...
from pandas import melt
df = pd.DataFrame(index=['00:00:00', '00:15:00'], columns=["2014-12-01","2014-12-02"])
它创建了数据框,但我不知道如何填充它。
我的问题:
- 创建包含一天中所有 96 个季度的索引的最简单方法是什么?
- 如何使用 melt 函数填充新的 df?
非常感谢您。
您可能正在寻找 pivot_table
,它类似于 melt
的倒数。为简单起见,以下代码使用包含 96 个整数值的 "Uhrzeit" 列重新创建输入 DataFrame,代表时间季度:
import pandas as pd
import numpy as np
data = {
'Datum': ['2014-12-01'] * 96 + ['2014-12-02'] * 96,
'Uhrzeit': range(96) + range(96),
'RZS': np.random.rand(96*2),
}
df = pd.DataFrame(data).set_index('Datum')[['Uhrzeit', 'RZS']]
df.reset_index(inplace=True) # Now this df looks like the input you described
df = pd.pivot_table(df, values='RZS', rows='Uhrzeit', cols='Datum')
print df[:10]
输出:
Datum 2014-12-01 2014-12-02
Uhrzeit
0 0.864674 0.363400
1 0.736678 0.925202
2 0.807088 0.076891
3 0.007031 0.528020
4 0.047997 0.216422
5 0.625339 0.636028
6 0.115018 0.141142
7 0.424289 0.101075
8 0.544412 0.147669
9 0.151214 0.274959
然后您可以切出包含所需 "Uhrzeit"s 的 DataFrame。
编辑:似乎列 RZS
表示为字符串,这给 pivot_table
带来了一些问题,因为它希望值列是数字。这是将该列转换为数字的快速修复,假设 str '1.087,29'
应被视为 float 1087.29
:
df = pd.DataFrame({'RZS': ['1.087,29', '1.087.087,28', '1.087.087.087,28']})
def fix(x):
return x.replace('.', '').replace(',', '.')
df['RZS'] = df['RZS'].apply(fix).astype(float)
# The column RZS now should be of dtype float, and pivot_table should work.
我想我需要一些有关 "melt" 功能的帮助。
我有一个如下所示的数据框:
如您所见,当前索引是时间。
但是,如果想实现如下:
背后的道理是想比较同一季度不同天的RZS值
我知道我可以使用 melt 函数,但我不知道这个函数是如何工作的...
from pandas import melt
df = pd.DataFrame(index=['00:00:00', '00:15:00'], columns=["2014-12-01","2014-12-02"])
它创建了数据框,但我不知道如何填充它。 我的问题:
- 创建包含一天中所有 96 个季度的索引的最简单方法是什么?
- 如何使用 melt 函数填充新的 df?
非常感谢您。
您可能正在寻找 pivot_table
,它类似于 melt
的倒数。为简单起见,以下代码使用包含 96 个整数值的 "Uhrzeit" 列重新创建输入 DataFrame,代表时间季度:
import pandas as pd
import numpy as np
data = {
'Datum': ['2014-12-01'] * 96 + ['2014-12-02'] * 96,
'Uhrzeit': range(96) + range(96),
'RZS': np.random.rand(96*2),
}
df = pd.DataFrame(data).set_index('Datum')[['Uhrzeit', 'RZS']]
df.reset_index(inplace=True) # Now this df looks like the input you described
df = pd.pivot_table(df, values='RZS', rows='Uhrzeit', cols='Datum')
print df[:10]
输出:
Datum 2014-12-01 2014-12-02
Uhrzeit
0 0.864674 0.363400
1 0.736678 0.925202
2 0.807088 0.076891
3 0.007031 0.528020
4 0.047997 0.216422
5 0.625339 0.636028
6 0.115018 0.141142
7 0.424289 0.101075
8 0.544412 0.147669
9 0.151214 0.274959
然后您可以切出包含所需 "Uhrzeit"s 的 DataFrame。
编辑:似乎列 RZS
表示为字符串,这给 pivot_table
带来了一些问题,因为它希望值列是数字。这是将该列转换为数字的快速修复,假设 str '1.087,29'
应被视为 float 1087.29
:
df = pd.DataFrame({'RZS': ['1.087,29', '1.087.087,28', '1.087.087.087,28']})
def fix(x):
return x.replace('.', '').replace(',', '.')
df['RZS'] = df['RZS'].apply(fix).astype(float)
# The column RZS now should be of dtype float, and pivot_table should work.