【发布时间】:2021-08-25 18:26:02
【问题描述】:
在 Apache Beam documentation 的使用数据帧部分, 我对代码做了一点修改:
from apache_beam.dataframe.io import read_csv
with beam.Pipeline() as p:
df = p | read_csv("test.csv")
agg = df[['A', 'B']].groupby('A').sum()
agg.to_csv('output_dummy')
它不执行求和运算。输出文件与输入文件类似
【问题讨论】:
-
你好,能把test.csv的内容贴出来吗?
-
它在图像中。但您可以使用以下代码生成它。将熊猫导入为 pd df = {'A' :[1,2,3], 'B':[2,2,1]} df = pd.DataFrame(df) df.to_csv('test.csv')
-
啊抱歉愚蠢的问题。您能否发布求和运算的输出?另外,您使用的是什么版本的 apache 梁? Dataframe API 仅从 2.32.0 及更高版本完全支持。
-
哦,我明白了。我的 apache_beam 版本是 2.30.0 我将它升级到 2.32.0 但出现了一系列错误: AttributeError: module 'apache_beam' has no attribute 'pipeline' , AttributeError: module 'apache_beam' has no attribute 'dataframe' ,跨度>
-
重启内核有帮助!谢谢我关闭这个
标签: apache-beam dataflow data-processing