【问题标题】:Apache Beam Dataframe Not Working as ExpectedApache Beam 数据框未按预期工作
【发布时间】:2021-08-25 18:26:02
【问题描述】:

在 Apache Beam documentation 的使用数据帧部分, 我对代码做了一点修改:

from apache_beam.dataframe.io import read_csv

with beam.Pipeline() as p:
  df = p | read_csv("test.csv")
  agg = df[['A', 'B']].groupby('A').sum()
  agg.to_csv('output_dummy')

我的 test.csv 看起来像这样

它不执行求和运算。输出文件与输入文件类似

【问题讨论】:

  • 你好,能把test.csv的内容贴出来吗?
  • 它在图像中。但您可以使用以下代码生成它。将熊猫导入为 pd df = {'A' :[1,2,3], 'B':[2,2,1]} df = pd.DataFrame(df) df.to_csv('test.csv')
  • 啊抱歉愚蠢的问题。您能否发布求和运算的输出?另外,您使用的是什么版本的 apache 梁? Dataframe API 仅从 2.32.0 及更高版本完全支持。
  • 哦,我明白了。我的 apache_beam 版本是 2.30.0 我将它升级到 2.32.0 但出现了一系列错误: AttributeError: module 'apache_beam' has no attribute 'pipeline' , AttributeError: module 'apache_beam' has no attribute 'dataframe' ,跨度>
  • 重启内核有帮助!谢谢我关闭这个

标签: apache-beam dataflow data-processing


【解决方案1】:

从 cmets 中的对话更新:

从 >= 2.32.0 版本开始支持 Apache Beam DataFrame API。要使用,请更新到该版本并重新启动内核。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2018-02-27
    • 2016-03-31
    • 2013-07-24
    • 2012-02-18
    • 2015-10-08
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多