【发布时间】:2020-06-09 19:54:03
【问题描述】:
给定这样的输入:
timestamp vars
2 [1,2,3]
2 [1,2,4]
3 [1,2]
4 [1,3]
5 [1,3]
我需要对每个索引进行滚动计数。尝试将数组扩展为一个热编码([1,2,3,5] -> [0,1,1,1,0,1])并添加,但这可能会变得任意大(> 100万),所以我想把它作为一个字典来维护。像下面的东西。任何指针将不胜感激。
timestamp vars
2 {1:1, 2:1, 3:1}
2 {1:2, 2:2, 3:1, 4:1}
3 {1:3, 2:3, 3:1, 4:1}
4 {1:4, 2:3, 3:2, 4:1}
5 {1:5, 2:3, 3:3, 4:1}
谢谢!
【问题讨论】:
-
我建议您维护一个哈希图并在那里增加计数并在创建字典时获取它。
标签: pyspark