【发布时间】:2015-01-20 14:13:09
【问题描述】:
我能够将arvo 文件读入avroRDD 并尝试转换为csvRDD,其中包含以逗号分隔的所有值。使用以下代码,我可以将特定字段读入csvRDD。
val csvRDD = avroRDD .map({case (u, _) => u.datum.get("empname")})
如何将所有值读入csvRDD,而不是指定字段名称。我的结果csvRDD 应该包含如下记录
(100,John,25,IN)
(101,Ricky,38,AUS)
(102,Chris,68,US)
【问题讨论】:
-
你是如何创建 avroRDD 的。是使用 spark SQL (sqlContext) 还是直接使用 SparkContext?
标签: hadoop apache-spark cloudera-cdh rdd