如何处理与 pandas 数据框关联的元数据？

Question

Q1:将元信息保存到数据帧的最佳做法是什么？我知道以下编码实践

import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'

但如本 post Adding meta-information/metadata to pandas DataFrame 所述，这与应用“groupby、pivot、join 或 loc”等函数可能会丢失信息的风险有关 return “没有附加元数据的新 DataFrame”。

这是否仍然有效，或者同时对元信息处理进行了更新？为此将 pandas 子类化是好的编码习惯吗？

问题 2： 什么是替代编码实践？

我认为构建一个单独的对象不是很合适。使用 Multiindex 也不能说服我。可以说我想用带有收入的数据框划分带有价格的数据框。使用 Multiindices 会非常复杂。

#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)

# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
    [['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]], 
                columns=e_index)

price.divide(earnings.values, level=1, axis=0)

在上面的例子中，我什至没有确保公司指数真的匹配。我可能需要调用 pd.DataFrame.reindex() 或类似的方法。在我看来，这不是一个好的编码习惯。

对于在我看不到的上下文中处理元信息的问题，是否有直接的解决方案？

提前致谢

Answer 1

我认为 MultiIndexes 是可行的方法，但是这样：

daily_price_data = pd.DataFrame({'Apple': [90, 85, 30], 'MSFT':[20, 30, 25]})
daily_earnings_data = pd.DataFrame({'Apple': [5000, 58000, 5100], 'MSFT':[2000, 2200, 3000]})
data = pd.concat({'price':daily_price_data, 'earnings': daily_earnings_data}, axis=1)
data


    earnings        price
    Apple   MSFT    Apple   MSFT
0   5000    2000    90      20
1   58000   2200    85      30
2   5100    3000    30      25

然后，划分：

data['price'] / data['earnings']

如果您发现在您的工作流程中将公司列在索引的第一级更有意义，那么 pandas.DataFrame.xs 将非常有帮助：

data2 = data.reorder_levels([1,0], axis=1).sort_index(axis=1)
data2.xs('price', axis=1, level=-1) / data2.xs('earnings', axis=1, level=-1)

Answer 2

虽然构建自定义对象不是您的第一选择，但它可能是您唯一可行的选择，并且具有极其灵活的显着优势。这是一个非常简单的例子：

df=pd.DataFrame({'stock': 'AAPL AAPL MSFT MSFT'.split(),
                 'price':[ 445.,455.,195.,205.]})

col_labels = { 'stock' : 'Ticker Symbol',
               'price' : 'Closing Price in USD' }

这只是列标签的字典，但大多数元数据通常与特定列相关。这是示例数据，带有标签：

df.rename(columns=col_labels)

#   Ticker Symbol  Closing Price in USD
# 0          AAPL                 445.0
# 1          AAPL                 455.0
# 2          MSFT                 195.0
# 3          MSFT                 205.0

好处是标签“持久化”，因为您基本上可以将它们应用于列是原始列的子集或超集的任何数据：

df.groupby('stock').mean().rename(columns=col_labels)

#        Closing Price in USD
# stock                      
# AAPL                  450.0
# MSFT                  200.0

如果使用 attrs 属性，您可以获得一些有限的持久性：

df.attrs = col_labels

但它相当有限。对于通过 .copy()、loc[] 或 iloc[] 派生的数据帧，它将持续存在，但对于 groupby() 则不会。您当然可以重新附加到任何衍生数据框，例如，

df2.attrs = df.attrs

但如 documentation 中所述（或缺少），这是一项实验性功能，可能会发生变化。似乎聊胜于无，也许以后会扩展。我找不到太多关于 attrs 的信息，但它似乎被初始化为一个空字典，并且只能是一个字典（或类似的），当然列表可以嵌套在顶层之下。

如何处理与 pandas 数据框关联的元数据？

How to handle meta data associated with a pandas dataframe?

python

finance

metadata

divide

pandas