【发布时间】:2019-05-06 19:37:26
【问题描述】:
如何修改以下代码以仅获取表中的最后一行,特别是 key 列下的值?原因是,它是一个巨大的表,我需要最后一行,特别是键值,才能知道它到目前为止加载了多少。我不关心还有什么其他内容。
第 1 行:
val df = spark.sqlContext.read.format("datasource").option("project", "character").option("apiKey", "xx").option("type", "tables").option("batchSize", "10000").option("database", "humans").option("table", "healthGamma").option("inferSchema", "true").option("inferSchemaLimit", "1").load()
第 2 行:
df.createTempView("tables")
第 3 行:
spark.sqlContext.sql("select * from tables").repartition(1).write.option("header","true").parquet("lifes_remaining")
【问题讨论】:
-
什么是键列类型?您只想要按升序排列的最后一个键吗?
-
@LiorChaga 它是值,整数。
标签: sql scala apache-spark pyspark