【问题标题】:Convert Dstream to dataframe using pyspark使用 pyspark 将 Dstream 转换为数据帧
【发布时间】:2017-10-19 16:10:04
【问题描述】:

如何将 DStream 转换为数据帧? 这是我的实际代码

localhost = "127.0.0.1"
addresses = [(localhost, 9999)]
schema = ['event', 'id', 'time','occurence']
flumeStream = FlumeUtils.createPollingStream(ssc, addresses)
counts = flumeStream.map(lambda line: str(line).split(",")) \
        .filter(lambda line: len(line)>1) \
        .map(lambda line: (line[29],line[30],line[67],1)) \
        .foreachRDD(lambda rdd: sqlContext.createDataFrame(rdd))

counts.show()

ssc.start()
ssc.awaitTerminationOrTimeout(62)
ssc.stop()

它给了我以下错误:

AttributeError: 'NoneType' object has no attribute 'show'

【问题讨论】:

    标签: pyspark spark-dataframe dstream


    【解决方案1】:

    将你的 DStream 转换为 RDD 再转换为 DataFrame,即 dstrea.rdd.to_df

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-09-18
      • 2021-11-16
      • 2017-01-25
      • 2021-10-29
      • 1970-01-01
      • 2020-07-31
      相关资源
      最近更新 更多