【问题标题】:Spark for loop with Rdd transformation带有 Rdd 转换的 Spark for 循环
【发布时间】:2016-04-08 10:55:54
【问题描述】:

我正在努力完成以下工作:

For iterator i from 0 to n 
  Create data frames using i as one of the filter criteria in the select statement of sparksql 
  Create Rdd from dataframe 
Perform multiple operations on rdd 

如何确保 for 循环正常工作?我正在尝试在集群上运行 Scala 代码。

【问题讨论】:

  • 你能添加一些代码吗?从您的伪代码中不清楚rdd 的性质。它是在循环中创建的多个rdds 的串联。还是别的什么?
  • 也许我会问你为什么这样做? a 也适用于一段代码?还有 n 代表什么?

标签: scala apache-spark


【解决方案1】:

首先,我建议在一些测试套件中本地运行它(如在 scalatest 中)。如果您不是单元/集成测试的类型,则可以在迭代数据帧时简单地对数据帧执行DF.show()。这将从每个数据帧中打印一个样本。

(0 until 5).foreach(i => {
  val df = [some data frame you use i in filtering]
  df.show()
  val df_rdd = df.rdd
})

【讨论】:

  • 为了获得DataFrameRDD,您可以使用:df.rdd
猜你喜欢
  • 1970-01-01
  • 2015-12-13
  • 2023-02-24
  • 1970-01-01
  • 2021-03-01
  • 1970-01-01
  • 2022-10-15
  • 2021-10-15
  • 2016-06-23
相关资源
最近更新 更多