【发布时间】:2016-12-27 06:37:53
【问题描述】:
我有一个使用
创建的pyspark.sql.dataframe.DataFrame 实例
dataframe = sqlContext.sql("select * from table").
一列是“arrival_date”并包含一个字符串。
如何修改此列,以便仅从中取出前 4 个字符并丢弃其余字符?
如何将此列的类型从字符串转换为日期?
在 graphlab.SFrame 中,这将是:
dataframe['column_name'] = dataframe['column_name'].apply(lambda x: x[:4] )
和
dataframe['column_name'] = dataframe['column_name'].str_to_datetime()
【问题讨论】:
-
@Orions 我只是还没来得及测试提出的解决方案。感谢您的帮助。
-
我想给自己足够的时间来测试每个答案,并在接受之前找到一个可行的答案。谢谢你的提醒。我现在就这样做。再次感谢您的帮助。
标签: python apache-spark pyspark apache-spark-sql