【发布时间】:2015-11-15 20:44:29
【问题描述】:
我想比较两个连续的行 i 与 i-1 的 col2(按 col1 排序)。
如果i-th 行的item_i 和item_[i-1]_row 不同,我想将item_[i-1] 的计数加1。
+--------------+
| col1 col2 |
+--------------+
| row_1 item_1 |
| row_2 item_1 |
| row_3 item_2 |
| row_4 item_1 |
| row_5 item_2 |
| row_6 item_1 |
+--------------+
在上面的例子中,如果我们一次向下扫描两行,我们看到row_2 和row_3 是不同的,因此我们在 item_1 中添加一个。接下来,我们看到row_3与row_4不同,然后在item_2上加一。继续,直到我们结束:
+-------------+
| col2 col3 |
+-------------+
| item_1 2 |
| item_2 2 |
+-------------+
【问题讨论】:
标签: scala apache-spark spark-streaming apache-spark-sql