【发布时间】:2015-12-04 08:28:17
【问题描述】:
我有一个数据框“df”,其中包含 ['name', 'age'] 列
我使用df.rdd.saveAsTextFile("..") 保存了数据框以将其保存为rdd。我加载了保存的文件,然后 collect() 给了我以下结果。
a = sc.textFile("\mee\sample")
a.collect()
Output:
[u"Row(name=u'Alice', age=1)",
u"Row(name=u'Alice', age=2)",
u"Row(name=u'Joe', age=3)"]
这不是行的 rdd。
a.map(lambda g:g.age).collect()
AttributeError: 'unicode' object has no attribute 'age'
有没有办法将数据框保存为没有列名和行关键字的普通 rdd? 我想保存数据框,以便在加载文件和收集时应该给我如下:
a.collect()
[(Alice,1),(Alice,2),(Joe,3)]
【问题讨论】:
标签: python apache-spark pyspark