【发布时间】:2015-12-08 09:53:17
【问题描述】:
我正在考虑创建一个管道以在 spark 中运行逻辑回归,但我遇到了一个问题,即是否有一种方法可以扩展或绕过“Tokenizer”对象。
基本上,我遇到的问题是,对于我试图创建的向量(即词干提取、词形还原、二元语法等)来说,分词器不够精确,但在火花管道的每个示例中我看到了一些类似的东西:
val tokenizer = new Tokenizer()
.setInputCol("text")
.setOutputCol("words")
val hashingTF = new HashingTF()
.setNumFeatures(1000)
.setInputCol(tokenizer.getOutputCol)
.setOutputCol("features")
val lr = new LogisticRegression()
.setMaxIter(10)
.setRegParam(0.001)
val pipeline = new Pipeline()
.setStages(Array(tokenizer, hashingTF, lr))
我必须有一个分词器阶段吗?扩展 Tokenizer 类来进行我想要的字符串修改会很简单吗?任何帮助将不胜感激!
【问题讨论】:
标签: scala apache-spark logistic-regression apache-spark-mllib