【发布时间】:2019-07-03 01:57:49
【问题描述】:
我需要通过 clojure 的 java 互操作在 spark dataset 上调用 groupBy 方法。
我只需要为一列调用它,但我可以使用的唯一 groupBy 签名涉及多个列名。该 api 似乎表明我应该只能使用一个列名,但我无法让它工作。我真正需要的是一个很好的例子。我错过了什么?
这不起作用。 . .
(-> a-dataset
(.groupBy "a-column")
这样做。 . .
(-> b-dataset
(.groupBy "b-column", (into-array ["c-column"])
我收到的错误信息是no groupBy method for dataset。
我知道它正在寻找一个列,但我不知道如何给它一个。
【问题讨论】:
-
感谢您的回复! - 我最终将调用包装在一个 clojure 函数中,该函数将数据集包含在参数中。使用它,我可以在每次调用 spark api 元素时使用数据集名称作为参数。
标签: java apache-spark clojure interop