【发布时间】:2015-08-24 18:22:45
【问题描述】:
我正在尝试将特定的 (py)spark 数据帧转换为另一个;原文有以下字段:
['ID', '事件', 'tstamp']
假设有 m 个不同的可能事件可以出现在“事件”列中,用“event_i”表示,i = 1,..m。我想创建一个新的数据框,其中包含以下字段:
['ID', 'event_1', 'event_2', 'event_3', ...'event_m'],
对于每个唯一 ID,我有每个发生的 m 个事件的计数。是否有一种仅使用 spark SQL API 的直接方法来执行此操作,而无需转换为 RDD 并返回?
我可以从头开始创建一个数据框,首先使用 m 个事件创建一个模式,按每个唯一 ID 进行过滤,然后使用 groupBy('event').count() 获取事件计数并从中手动创建行并将它们附加到数据框,但我只是觉得可能有一种更简单的方法可以做到这一点。我在 SO 上找不到类似的东西,但如果已经问过这个问题,我们深表歉意。
【问题讨论】:
标签: python dataframe apache-spark-sql