【问题标题】:Creating spark pipeline without using tokenizer在不使用标记器的情况下创建火花管道
【发布时间】:2015-12-08 09:53:17
【问题描述】:

我正在考虑创建一个管道以在 spark 中运行逻辑回归,但我遇到了一个问题,即是否有一种方法可以扩展或绕过“Tokenizer”对象。

基本上,我遇到的问题是,对于我试图创建的向量(即词干提取、词形还原、二元语法等)来说,分词器不够精确,但在火花管道的每个示例中我看到了一些类似的东西:

val tokenizer = new Tokenizer()
  .setInputCol("text")
  .setOutputCol("words")
val hashingTF = new HashingTF()
  .setNumFeatures(1000)
  .setInputCol(tokenizer.getOutputCol)
  .setOutputCol("features")
val lr = new LogisticRegression()
  .setMaxIter(10)
  .setRegParam(0.001)
val pipeline = new Pipeline()
  .setStages(Array(tokenizer, hashingTF, lr))

我必须有一个分词器阶段吗?扩展 Tokenizer 类来进行我想要的字符串修改会很简单吗?任何帮助将不胜感激!

【问题讨论】:

    标签: scala apache-spark logistic-regression apache-spark-mllib


    【解决方案1】:

    所以我在这里找到了一个很好的扩展分词器类的例子。这应该为正确标记化需要重载的内容提供一个很好的路线图。

    https://github.com/fyrz/spark-java-text-classifier/blob/master/src/main/java/org/fyrz/textclassifier/tokenizer/SparkLuceneTokenizer.java

    【讨论】:

      猜你喜欢
      • 2019-12-14
      • 1970-01-01
      • 2016-01-28
      • 2017-08-04
      • 2018-08-09
      • 2016-09-07
      • 2021-05-26
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多