【发布时间】:2012-12-18 13:18:06
【问题描述】:
我正在处理一个包含反人口贩运组织信息的数据集。组织由组织名称或组织主页的 Web 地址标识。我想根据具体情况有条件地折叠此数据框,以便留下一组唯一的标识符(对于我的数据,组织名称或组织的网址)对于每个案例,以及这些案例的大约 1000 多个数字属性,这些数字属性是在崩溃之前标识符关联的行的最高或最低值。为了说明这一点,我想转:
> df1
x y z
Item1 0 3
Item1 1 4
Item2 1 2
Item3 1 3
Item2 1 5
Item3 1 2
Item4 0 2
进入类似的东西
> df2
x y z
Item1 1 3
Item2 1 2
Item3 1 2
Item4 0 2
当然,在这个例子中,我想保留 Var2 的最大值和 Var3 的最小值,并且只保留唯一的 Var1 值。
任何人都可以建议一种系统的方法来为大型数据集执行此操作吗?提前感谢您的帮助!
【问题讨论】: