【发布时间】:2017-06-03 08:32:38
【问题描述】:
我在 PSspark 中有一个DataFrame,格式如下
Date Id Name Hours Dno Dname
12/11/2013 1 sam 8 102 It
12/10/2013 2 Ram 7 102 It
11/10/2013 3 Jack 8 103 Accounts
12/11/2013 4 Jim 9 101 Marketing
我想根据dno 进行分区,并使用 Parquet 格式保存为 Hive 中的表。
df.write.saveAsTable(
'default.testing', mode='overwrite', partitionBy='Dno', format='parquet')
查询运行良好,并在 Hive 中使用 Parquet 输入创建了表。
现在我想根据日期列的年份和月份进行分区。时间戳为 Unix 时间戳
我们如何在 PySpark 中实现这一点。我已经在 hive 中完成了,但 PySpark 无法做到
【问题讨论】:
标签: apache-spark dataframe timestamp pyspark partition