识别数据框中不断增加的特征答案

【问题标题】：Identify increasing features in a data frame识别数据框中不断增加的特征
【发布时间】：2019-08-06 12:38:57
【问题描述】：

我有一个数据框，它显示了一些具有累积值的特征。我需要识别这些特征以恢复累积值。这是我的数据集的样子（加上大约 50 个变量）：

我希望达到的是：

我似乎是这个答案，但它首先还原值，然后尝试识别列。我不能反过来做吗？先识别特征再还原值？

Finding cumulative features in dataframe?

我现在要做的是运行以下代码，以便为我提供具有累积值的功能名称：

 def accmulate_col(value):
     count = 0
     count_1 = False
     name = []
     for i in range(len(value)-1):
         if value[i+1]-value[i] >= 0:
             count += 1
         if value[i+1]-value[i] > 0:
             count_1 = True
     name.append(1) if count == len(value)-1 and count_1 else name.append(0)
     return name

 df.apply(accmulate_col)

之后，我将这些特征名称手动保存在一个名为 cum_features 的列表中并还原这些值，从而创建所需的数据集：

df_clean = df.copy()
df_clean[cum_cols] = df_clean[cum_features].apply(lambda col: np.diff(col, prepend=0))

有没有更好的方法来解决我的问题？

【问题讨论】：

您绝对应该支持差异计算函数而不是自己进行迭代。话虽如此，您能否提供一个示例数据框来使用？

标签： python pandas dataframe diff

【解决方案1】：

要确定哪些列在整个列中具有递增的*值，您需要对所有值应用条件。所以从这个意义上说，您必须首先使用这些值来确定哪些列符合条件。

除此之外，给定一个数据框，例如：

import pandas as pd
d = {'a': [1,2,3,4],
     'b': [4,3,2,1]
     }
df = pd.DataFrame(d)
#Output:
   a  b
0  1  4
1  2  3
2  3  2
3  4  1

找出哪些列包含增加的值只是对数据框中的所有值使用diff 并检查哪些列在整个列中增加的问题。

可以写成：

out = (df.diff().dropna()>0).all()
#Output:
a     True
b    False
dtype: bool

然后，您可以只使用列名来选择其中包含True 的那些

new_df = df[df.columns[out]]
#Output:
   a
0  1
1  2
2  3
3  4

*（术语“累积”并不真正代表您使用的条件。您希望它是累积的还是只是增加？累积意味着特定行/索引中的值是该索引之前所有值的总和，虽然增加只是这样，但当前行/索引中的值大于前一个。）

【讨论】：