【发布时间】:2014-11-12 13:12:21
【问题描述】:
我正在尝试使用 apache spark 进行基本的 Twitter 情绪分析。
下面的页面解释了 apache spark 使用的朴素贝叶斯函数,这将是上述问题的候选者。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html
当您查看 java 示例时, 训练集和测试集为
JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set
我不知道它们是什么数据类型,但我可以理解它们是一些非英语输入。
我有一个推文列表。
“我爱我的国家。”
“在办公室度过美好的一天。”
“谷歌浏览器糟透了!”
如何使用朴素贝叶斯函数来处理文本?
对此的任何见解都会有所帮助。
【问题讨论】:
标签: java twitter apache-spark machine-learning apache-spark-mllib