【发布时间】:2018-06-16 13:56:10
【问题描述】:
我的问题与this 类似,但对于 Spark,原始问题没有令人满意的答案。
我正在使用带有推文数据作为输入的 Spark 2.2 LinearSVC 模型:推文的文本(已预处理)为 hash-tfidf,其月份如下:
val hashingTF = new HashingTF().setInputCol("text").setOutputCol("hash-tf")
.setNumFeatures(30000)
val idf = new IDF().setInputCol("hash-tf").setOutputCol("hash-tfidf")
.setMinDocFreq(10)
val monthIndexer = new StringIndexer().setInputCol("month")
.setOutputCol("month-idx")
val va = new VectorAssembler().setInputCols(Array("month-idx", "hash-tfidf"))
.setOutputCol("features")
如果有 30,000 个单词的功能,这些功能不会淹没这个月吗?或者VectorAssembler 足够聪明来处理这个问题。 (如果可能的话,我如何获得该模型的最佳功能?)
【问题讨论】:
标签: scala apache-spark machine-learning apache-spark-mllib feature-extraction