【发布时间】:2018-05-30 00:08:51
【问题描述】:
为 Python 使用 spark 和 Pandas 库。 我基本上有以下几点:
df.groupby('sIP').agg({'duration': 'sum'}).show()
这给了我以下输出:
+---------------+------------------+
| sIP| sum(duration)|
+---------------+------------------+
| 203.13.173.243| 0.0|
| 204.62.16.153| 17522.927|
| 203.30.177.95| 1.081|
| 56.23.191.99| 113.186|
所有不同源 IP 地址持续时间的总和。
我现在要做的是从该总和中获取最大值,并获取关联的源 IP。所以我必须在修改后查询 DataFrame(上面的查询)。
所以我尝试:
df.groupby('sIP').agg({'duration': 'max'}).show()
但还是查询到原来的DataFrame,如下:
+---------------+-------------+
| sIP|max(duration)|
+---------------+-------------+
| 203.13.173.243| 0.0|
| 204.62.16.153| 1790.305|
| 203.30.177.95| 1.081|
| 56.23.191.99| 22.563|
是否有覆盖数据框状态的方法?我看过转换,但没有成功,collect() 是我研究过的另一件事,但仍然一无所获......
我错过了什么?
提前致谢。
【问题讨论】:
标签: python sql pandas apache-spark dataframe