【发布时间】:2019-09-28 11:07:43
【问题描述】:
我曾经使用this solution 在 Pandas 中计算和存储列的 value_counts 并将结果存储在新列中。
现在我正在尝试对 Dask Dataframe 执行相同的操作,但它会导致以下错误:
df['new_column'] = df.groupby(['A'])['B'].transform('count', meta='int').compute()
ValueError: 无法从重复的轴重新索引
附: df 数据框有四个分区。
如何计算A 列的value_count 并将它们存储在Dask 中的new_column 中,与this answer 一样?
【问题讨论】:
-
您介意生成mcve吗?