【问题标题】:Twitter sentiment analysis using Naive Bayes in apache spark在 apache spark 中使用朴素贝叶斯进行 Twitter 情感分析
【发布时间】:2014-11-12 13:12:21
【问题描述】:

我正在尝试使用 apache spark 进行基本的 Twitter 情绪分析。

下面的页面解释了 apache spark 使用的朴素贝叶斯函数,这将是上述问题的候选者。 http://spark.apache.org/docs/1.0.0/mllib-naive-bayes.html

当您查看 java 示例时, 训练集和测试集为

JavaRDD<LabeledPoint> training = ... // training set
JavaRDD<LabeledPoint> test = ... // test set

我不知道它们是什么数据类型,但我可以理解它们是一些非英语输入。

我有一个推文列表。

“我爱我的国家。”
“在办公室度过美好的一天。”
“谷歌浏览器糟透了!”

如何使用朴素贝叶斯函数来处理文本?

对此的任何见解都会有所帮助。

【问题讨论】:

    标签: java twitter apache-spark machine-learning apache-spark-mllib


    【解决方案1】:

    LabeledPoint 的格式为(double, Vectors(double[])),其中第一个参数是标签,第二个参数是特征向量(仅非负实值)。但是对于您的情况,它不匹配。这意味着您必须找到一种将数据转换为实际值的方法。 TFIDF 似乎是一种方式。您可能有兴趣阅读 this 示例以更好地理解。

    【讨论】:

      猜你喜欢
      • 2012-07-15
      • 2018-12-14
      • 2017-05-19
      • 2016-01-10
      • 2020-04-26
      • 2019-04-01
      • 2012-07-02
      • 2016-11-10
      • 2016-03-22
      相关资源
      最近更新 更多