【发布时间】:2017-05-31 19:21:39
【问题描述】:
我正在使用 Apache Spark 2 来标记一些文本。
Dataset<Row> regexTokenized = regexTokenizer.transform(data);
它返回字符串数组。
Dataset<Row> words = regexTokenized.select("words");
示例数据如下所示。
+--------------------+
| words|
+--------------------+
|[very, caring, st...|
|[the, grand, cafe...|
|[i, booked, a, no...|
|[wow, the, places...|
|[if, you, are, ju...|
现在,我想获得所有独特的单词。我尝试了几个过滤器、flatMap、map 函数和 reduce。我无法弄清楚,因为我是 Spark 的新手。
【问题讨论】:
标签: java apache-spark apache-spark-sql spark-dataframe