【问题标题】:Automating the rumour identification process自动化谣言识别过程
【发布时间】:2015-11-20 03:33:52
【问题描述】:

目前我们在做什么,根据社交媒体上的一些关键字检查用户讨论。根据关键字检测,我们确定这可能是谣言。

自动化流程的方法:

  1. 基于关键字:验证会话中基于 1-2 克的关键字。如果存在关键字,则将其标记为可疑对话
  2. 基于分类器的方法:使用一些预先标记的可疑对话训练分类器。曾经以 >50% 的概率分类,标记为可疑。

对于第二种方法,我正在考虑朴素贝叶斯分类器,并使用 scikit learn 以精度、召回率、F 度量值识别结果。

有没有更好的方法来解决这个问题?或者一些可以结合这两种方法的模型?

【问题讨论】:

    标签: machine-learning scikit-learn classification prediction naivebayes


    【解决方案1】:

    这两种方法没有理由相互排斥。如果您无论如何都要识别关键字,那么您可以轻松地提取用于机器学习的特征。如果您正在进行机器学习,您还可以包含一些功能,这些功能可以捕捉您对已识别的关键字的了解。

    您选择朴素贝叶斯模型有什么原因吗?您可能想尝试一些模型来比较它们的性能。您关于“以精确度、召回率、F 度量来识别结果”的陈述使您似乎不了解如何使用机器学习模型进行预测。这三个指标是将模型的预测与大量文本上的“黄金标准”标签进行比较的结果。我建议通读机器学习简介。如果您已经决定要使用scikit-learn,那么也许您可以完成他们的教程here。另一个值得研究的python 图书馆是nltk,它有一本免费的配套书籍here

    如果python 不是您的首选语言,那么还有很多其他选择。例如,weka 是一个用 java 编写的知名工具。它的基本功能具有非常人性化的图形界面,但在命令行中使用也不难。

    祝你好运!

    【讨论】:

    • @bepop:感谢您的回答。实际上,我对 scikit learn 以及 nltk 也很满意。朴素贝叶斯背后的原因是,我读到它可以很好地处理文本数据。我想我也可以与 svm、朴素贝叶斯、最大熵等不同的模型进行比较。根据您回答后的理解,我可以使用precision,recall,F measure来比较不同模型之间的结果,对吗?
    • 我有两个选择,nltk 或 scikit learn。你能给出你对这种情况的处理方法吗
    • @cyclic 是的,如果您有黄金标准语料库,那么您可以在该语料库上训练和测试模型(通常使用 10 折交叉验证),以及这些测试的结果(包括精度,召回等)可用于比较模型,假设它们的训练数据和测试数据相同。 nltkscikit-learn 都是优秀的库。我建议查看每种型号都有哪些型号。只是取决于你想做什么。
    • @cyclic 顺便说一句,我一周前刚刚了解到orange,还有python 的另一种可能性。 python3 的最新版本主要基于 scikit-learn
    猜你喜欢
    • 2018-07-13
    • 2020-04-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-01-20
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多