【发布时间】:2018-08-29 20:50:27
【问题描述】:
旅行
id,timestamp
1008,2003-11-03 15:00:31
1008,2003-11-03 15:02:38
1008,2003-11-03 15:03:04
1008,2003-11-03 15:18:00
1009,2003-11-03 22:00:00
1009,2003-11-03 22:02:53
1009,2003-11-03 22:03:44
1009,2003-11-14 10:00:00
1009,2003-11-14 10:02:02
1009,2003-11-14 10:03:10
提示
id,timestamp ,mode
1008,2003-11-03 15:18:49,car
1009,2003-11-03 22:04:20,metro
1009,2003-11-14 10:04:20,bike
读取 csv 文件:
coordinates = pd.read_csv('coordinates.csv')
mode = pd.read_csv('prompts.csv')
我必须在旅行结束时分配每种模式
结果:
id, timestamp, mode
1008, 2003-11-03 15:00:31, null
1008, 2003-11-03 15:02:38, null
1008, 2003-11-03 15:03:04, null
1008, 2003-11-03 15:18:00, car
1009, 2003-11-03 22:00:00, null
1009, 2003-11-03 22:02:53, null
1009, 2003-11-03 22:03:44, metro
1009, 2003-11-14 10:00:00, null
1009, 2003-11-14 10:02:02, null
1009, 2003-11-14 10:03:10, bike
注意
我使用大型数据集(4GB)和小型数据集(500MB)
【问题讨论】:
-
是否只需要在行程结束时?否则你可以使用
coordinates.merge(mode, on='id')。这将为具有指定 id 的所有行填写运输方式。 -
@tobsecret 我只想指定轨迹末端的模式,根本不指定。当我合并我的程序需要几个时间(5 小时)
-
为什么这个标签是 pyspark?
-
@pault 我使用 Pyspark 和 Jupyter。笔记本
-
@adilblanco 但所有这些代码都是熊猫。你是在问如何在 spark 中做到这一点?
标签: python python-3.x pandas pyspark