【发布时间】:2019-08-23 02:21:31
【问题描述】:
我有一张看起来像这样的表格:
Name Age Num_Hobbies Num Shoes
Jane 31 10 2
Bob 23 3 4
Jane 60 2 200
Jane 31 100 6
Bob 10 8 7
etc etc
我想按姓名和年龄对该表进行分组,然后从其余列中随机选择一行。
在 pandas 中,我会执行以下操作:
df.groupby(['Name', 'Age']).apply(lambda x: x.sample(n=1))
在 hive 中,我知道如何创建组,但不知道如何从组中选择单个随机样本。
我在堆栈溢出上看到了这个问题:How to sample for each group in hive?
但是,我不明白如何应用动态分区或 Hive 分桶从组中选择单个样本。
【问题讨论】:
-
分组后选择第一行不排序分组?