【发布时间】:2018-12-26 04:56:03
【问题描述】:
我有一个(大约 100 万个)Scala Spark DataFrame,其中包含以下数据:
id,score
1,0.956
2,0.977
3,0.855
4,0.866
...
如何将分数离散化/四舍五入到最接近的小数点 0.05 位?
预期结果:
id,score
1,0.95
2,1.00
3,0.85
4,0.85
...
希望避免使用 UDF 以最大限度地提高性能。
【问题讨论】:
标签: scala apache-spark dataframe concurrency