在不使用标记器的情况下创建火花管道答案

【问题标题】：Creating spark pipeline without using tokenizer在不使用标记器的情况下创建火花管道
【发布时间】：2015-12-08 09:53:17
【问题描述】：

我正在考虑创建一个管道以在 spark 中运行逻辑回归，但我遇到了一个问题，即是否有一种方法可以扩展或绕过“Tokenizer”对象。

基本上，我遇到的问题是，对于我试图创建的向量（即词干提取、词形还原、二元语法等）来说，分词器不够精确，但在火花管道的每个示例中我看到了一些类似的东西：

val tokenizer = new Tokenizer()
  .setInputCol("text")
  .setOutputCol("words")
val hashingTF = new HashingTF()
  .setNumFeatures(1000)
  .setInputCol(tokenizer.getOutputCol)
  .setOutputCol("features")
val lr = new LogisticRegression()
  .setMaxIter(10)
  .setRegParam(0.001)
val pipeline = new Pipeline()
  .setStages(Array(tokenizer, hashingTF, lr))

我必须有一个分词器阶段吗？扩展 Tokenizer 类来进行我想要的字符串修改会很简单吗？任何帮助将不胜感激！

【问题讨论】：

标签： scala apache-spark logistic-regression apache-spark-mllib

【解决方案1】：

所以我在这里找到了一个很好的扩展分词器类的例子。这应该为正确标记化需要重载的内容提供一个很好的路线图。

https://github.com/fyrz/spark-java-text-classifier/blob/master/src/main/java/org/fyrz/textclassifier/tokenizer/SparkLuceneTokenizer.java

【讨论】：