在 apache spark 中使用朴素贝叶斯进行 Twitter 情感分析答案

【问题标题】：Twitter sentiment analysis using Naive Bayes in apache spark在 apache spark 中使用朴素贝叶斯进行 Twitter 情感分析
【发布时间】：2014-11-12 13:12:21
【问题描述】：

我正在尝试使用 apache spark 进行基本的 Twitter 情绪分析。

下面的页面解释了 apache spark 使用的朴素贝叶斯函数，这将是上述问题的候选者。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当您查看 java 示例时，训练集和测试集为

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道它们是什么数据类型，但我可以理解它们是一些非英语输入。

我有一个推文列表。

“我爱我的国家。”
“在办公室度过美好的一天。”
“谷歌浏览器糟透了！”

如何使用朴素贝叶斯函数来处理文本？

对此的任何见解都会有所帮助。

【问题讨论】：

标签： java twitter apache-spark machine-learning apache-spark-mllib

【解决方案1】：

LabeledPoint 的格式为(double, Vectors(double[]))，其中第一个参数是标签，第二个参数是特征向量（仅非负实值）。但是对于您的情况，它不匹配。这意味着您必须找到一种将数据转换为实际值的方法。 TFIDF 似乎是一种方式。您可能有兴趣阅读 this 示例以更好地理解。

【讨论】：