【发布时间】:2020-09-24 06:08:12
【问题描述】:
我有一个如下的 dask 数据框:
id refseqno xml
0 31110671 42 <my_xml> ...
1 34470834 6 <my_xml>...
2 35025043 19 <my_xml>...
3 37360536 7 <my_xml>...
4 44152211 10 <my_xml>...
5 45322759 15 <my_xml>..
我想在 id 上运行 group by,以便将相同的 id 组合在一起,并加入 refseqno 的值。基本上每个id 都会有多个refseqno。然后将分组的输出与原始数据帧合并,以便加入refseqno、id 和xml 值。但是合并失败,KeyError: 'id'
df_valid = df_output.groupby(['id']).refseqno.apply(lambda grp: ','.join(grp), meta=(('join', str)))
df_valid = df_valid.to_frame()
df_merge = dd.merge(df_output, df_valid, on=['id'], how='inner')
df_merge.compute()
另外,df_output 和 df_valid 都是 dask 数据帧
<class 'dask.dataframe.core.DataFrame'>
<class 'dask.dataframe.core.DataFrame'>
请问我可以解决这个问题吗?
【问题讨论】:
标签: python-3.x pandas dask