【发布时间】:2019-12-17 20:17:09
【问题描述】:
我需要两个标记化和删除停用词的过程:
val tokenizer = new Tokenizer()
.setInputCol("seg_text")
.setOutputCol("raw_words")
val remover = new StopWordsRemover()
.setInputCol("raw_words")
.setStopWords(stop_words)
.setOutputCol("words")
并创建管道:
val pipeline = new Pipeline()
.setStages(Array(tokenizer, remover))
最后,我希望得到这个管道的输出。我不知道怎么做,或者可能做不到。
【问题讨论】:
标签: scala apache-spark machine-learning nlp apache-spark-mllib