【发布时间】:2018-03-27 15:11:47
【问题描述】:
我有一个带有列(年龄)的 spark 数据框。我需要编写一个 pyspark 脚本来将数据框存储为 10 岁的范围(例如 11-20 岁、21-30 岁、...)并找到每个年龄跨度条目的计数。需要有关如何操作的指导熬过这个
例如:
我有以下数据框
+-----+
|age |
+-----+
| 21|
| 23|
| 35|
| 39|
+-----+
分桶后(预期)
+-----+------+
|age | count|
+-----+------+
|21-30| 2 |
|31-40| 2 |
+-----+------+
【问题讨论】:
标签: python-3.x apache-spark hadoop pyspark bigdata