【发布时间】:2019-02-19 19:24:05
【问题描述】:
假设我有以下 DataFrame。
+----+-----+
|lang|count|
+----+-----+
| en| 4|
| en| 5|
| de| 2|
| en| 2|
| nl| 4|
| nl| 5|
+----+-----+
如何对每种唯一语言的“count”值求和,并将该值作为新列附加(因此,不会减少行数)?
在我的示例中,这将导致:
+----+-----+----------------+
|lang|count|totalCountInLang|
+----+-----+----------------+
| en| 4| 11|
| en| 5| 11|
| de| 2| 2|
| en| 2| 11|
| nl| 4| 9|
| nl| 5| 9|
+----+-----+----------------+
DataFrames 是通过对DStream 的map 操作构建的。
对于实现这一目标的最佳方法有什么建议吗?有没有比使用 DataFrames 更有效的方法?
提前致谢!
【问题讨论】:
标签: scala apache-spark dataframe apache-spark-sql