【发布时间】:2020-04-21 19:58:08
【问题描述】:
我是 Pandas 的新手,但感谢 Add column with constant value to pandas dataframe 我能够使用
一次添加不同的列c = {'new1': 'w', 'new2': 'y', 'new3': 'z'}
df.assign(**c)
但是,当我想将新列添加到数据框(当前为 120 万行 * 23 列)时,我正在尝试找出路径。
让我们稍微简化一下 df 并尝试使其更清晰:
Order Orderline Product
1 0 Laptop
1 1 Bag
1 2 Mouse
2 0 Keyboard
3 0 Laptop
3 1 Mouse
我想添加一个新列,如果订单至少有 1 个产品 == Bag,那么它应该为 1(对于该特定订单的所有行),否则为 0。
结果会变成:
Order Orderline Product HasBag
1 0 Laptop 1
1 1 Bag 1
1 2 Mouse 1
2 0 Keyboard 0
3 0 Laptop 0
3 1 Mouse 0
我可以做的是找到所有唯一的订单号,然后过滤掉子帧,检查产品列的袋子,如果找到,则在新列中添加 1,否则为 0,然后将原始子帧替换为结果.
可能有更好的方法来实现这一点,而且性能也更高。
我尝试这样做的主要原因是为了在以后平息事情。每个订单都应成为具有某些产品值的 1 行。我不再需要 Bag 的信息,但如果原始订单曾经有 Bag (1) 或没有 Bag (0),我想保留在我的数据框中。
最终,当数据被清除后,它可以用作 scikit-learn 的基础(或者这就是我希望的)。
【问题讨论】: