【发布时间】:2018-02-03 07:22:49
【问题描述】:
我正在尝试读取其中包含一些实验室数据的 parquet 文件,然后将其加载到临时表中,对该表进行查询,然后将结果保存到 CSV 文件中,其中列和逗号分隔。这是我的代码:
lines = sqlContext.read.parquet("hdfs:////data/lab_01/")
lines.registerTempTable("test_data")
resultsDF = sqlContext.sql("select * from results")
header = ["lab_key", "tray_id", "time", "gene_id", "source"]
pandas.resultsDF.to_csv("/data/results.csv", sep=",", columns = header)
我得到的错误是这样的,它在代码的最后一行:
AttributeError: 模块 'pandas' 没有属性 'resultsDF'
我正在寻找带有标题的 CSV 文件,如下所示:
lab_key tray_id time gene_id Source
10 26905972 1 8315 2
30 26984972 1 8669 2
30 26949059 1 1023 2
30 26905972 1 1062 1
这是我的数据框 resultsDF 的样子:
[Row(lab_key=1130, tray_id=26984905972, time=1, gene_id=833715, source=2),
Row(lab_key=1130, tray_id=26984905972, time=1, gene_id=866950, source=2),
Row(lab_key=1130, tray_id=26984905972, time=1, gene_id=1022843, source=2),
【问题讨论】:
-
删除熊猫。
resultsDF.to_csv("/data/results.csv", sep=",", columns = header) -
执行此操作时出现错误:AttributeError: 'DataFrame' object has no attribute 'to_csv'