【发布时间】:2017-02-06 16:30:24
【问题描述】:
Q1:将元信息保存到数据框的最佳做法是什么?我知道以下编码实践
import pandas as pd
df = pd.DataFrame([])
df.currency = 'USD'
df.measure = 'Price'
df.frequency = 'daily'
但正如本文Adding meta-information/metadata to pandas DataFrame 中所述,这与通过应用诸如“groupby、pivot、join 或 loc”等函数而丢失信息的风险相关,因为它们可能会返回“没有附加元数据的新 DataFrame”。
这仍然有效还是同时对元信息处理进行了更新?为此目的对 pandas 进行子类化是一种好的编码习惯吗?
Q2:另一种编码做法是什么?
我不认为构建一个单独的对象是非常合适的。使用 Multiindex 也不能说服我。假设我想将一个带有价格的数据框除以一个带有收益的数据框。使用多指数会非常复杂。
#define price DataFrame
p_index = pd.MultiIndex.from_tuples([['Apple', 'price', 'daily'],['MSFT', 'price', 'daily']])
price = pd.DataFrame([[90, 20], [85, 30], [70, 25]], columns=p_index)
# define earnings dataframe
e_index = pd.MultiIndex.from_tuples(
[['Apple', 'earnings', 'daily'], ['MSFT', 'earnings', 'daily']])
earnings=pd.DataFrame([[5000, 2000], [5800, 2200], [5100, 3000]],
columns=e_index)
price.divide(earnings.values, level=1, axis=0)
在上面的示例中,我什至无法确保公司指数确实匹配。我可能需要调用 pd.DataFrame.reindex() 或类似的。在我看来,这不是一个好的编码实践。
对于在我看不到的上下文中处理元信息的问题,是否有直接的解决方案?
提前谢谢你
【问题讨论】:
标签: python pandas metadata finance divide