【发布时间】:2021-09-11 16:18:29
【问题描述】:
我有来自 csv 文件的大数据。该文件有一个日期列,其中有两种日期格式 - Unixtimestamp 和普通 Timestamp。现在我想有效地管理这个专栏。我们可能应该将所有日期转换为通用格式,但我不知道如何实现它。您可以向我建议一个 SQL 查询,或者 pyspark 数据框方法也可以。
【问题讨论】:
标签: sql dataframe pyspark apache-spark-sql
我有来自 csv 文件的大数据。该文件有一个日期列,其中有两种日期格式 - Unixtimestamp 和普通 Timestamp。现在我想有效地管理这个专栏。我们可能应该将所有日期转换为通用格式,但我不知道如何实现它。您可以向我建议一个 SQL 查询,或者 pyspark 数据框方法也可以。
【问题讨论】:
标签: sql dataframe pyspark apache-spark-sql
在大数据架构中,您必须认为传入的数据必须在使用之前进行细化,因此您需要创建一个中间表来处理数据。在这个中间表中,您可以将这两种数据类型转换为唯一的数据类型,然后使用这个细化的表来使用数据。
【讨论】:
通过使用数据框,您可以添加新列并应用条件将您的 UNIX 时间戳转换为常规时间戳。
【讨论】: