【发布时间】:2018-12-11 20:22:32
【问题描述】:
你会怎么做? Databricks 4.1、Spark 2.3
您将获得一个两列数据框:
1) ‘dt’,字符串,如图。
2) ‘tm’字符串,如图所示。
我为这篇文章添加了第三列。
您的工作是创建第 3 列,“dttm”、时间戳、格式。前导零、精度和时区不如正确组合“dt”和“tm”的 id 重要。
我在这篇文章中使用了 PySpark,但我还没有结婚。
df1 = sqlContext.createDataFrame(
[
('2018-06-02T00:00:00','12:30:00 AM', '06-02-2018 00:30:00.000+0000')
,('2018-11-15T00:00:00','03:00:00 AM', '11-15-2018 03:00:00.000+0000')
,('2018-06-02T00:00:00','10:30:00 AM', '06-02-2018 10:30:00.000+0000')
,('2018-06-02T00:00:00','12:30:00 PM', '06-02-2018 12:30:00.000+0000')
,('2018-11-15T00:00:00','03:00:00 PM', '11-15-2018 15:00:00.000+0000')
,('2018-06-02T00:00:00','10:30:00 PM', '06-02-2018 22:30:00.000+0000')
]
,['dt', 'tm', 'desiredCalculatedResult']
)
我已经经历了几十个例子和几十个尝试,到目前为止我还没有找到最终可行的解决方案。
【问题讨论】:
标签: dataframe databricks azure-databricks