【发布时间】:2020-12-26 17:11:15
【问题描述】:
我想将多个列名作为参数传递给数据框。
val readData = spark.sqlContext
.read.format("csv")
.option("delimiter",",")
.schema(Schema)
.load("emp.csv")
val cols_list1 = "emp_id,emp_dt"
val cols_list2 = "emp_num"
val RemoveDupli_DF = readData
.withColumn("rnk", row_number().over(Window.partitionBy(s"$cols_list1").orderBy(s"$cols_list2") ))
如果我有一个列名,上面的代码正在工作,而有两个或更多列,它给出以下错误。
线程“主”org.apache.spark.sql.AnalysisException 中的异常:无法解析“emp_id,emp_dt”
使用 Scala 2.x 版本。
【问题讨论】:
标签: apache-spark apache-spark-sql apache-spark-dataset