【问题标题】:Training data for sentiment analysis [closed]情绪分析的训练数据[关闭]
【发布时间】:2011-11-24 23:04:04
【问题描述】:

我在哪里可以获得已在企业领域中被分类为正面/负面情绪的文档语料库?我想要为公司提供评论的大量文档,例如分析师和媒体提供的公司评论。

我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域的语料库,包括对公司的评论?

【问题讨论】:

标签: nlp machine-learning text-analysis sentiment-analysis training-data


【解决方案1】:

我不知道有任何这样的语料库可以免费获得,但您可以在未标记的数据集上尝试unsupervised method

【讨论】:

    【解决方案2】:

    http://www.cs.cornell.edu/home/llee/data/

    http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

    您可以使用带有表情符号的 twitter,如下所示:http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

    希望能帮助您入门。如果您对否定、情感范围等特定的子任务感兴趣,文献中还有更多内容。

    要关注公司,您可以将一种方法与主题检测结合起来,或者只需大量提及给定公司即可。或者您可以让 Mechanical Turkers 对您的数据进行注释。

    【讨论】:

    【解决方案3】:

    【讨论】:

    • 我们需要为 kaggle 链接输入大学邮箱和密码。
    【解决方案4】:

    如果您有一些关于您想要探索的领域的资源(媒体渠道、博客等),您可以创建自己的语料库。 我在 python 中这样做:

    • 使用 Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ 解析我要分类的内容。
    • 将那些表示对公司的正面/负面意见的句子分开。
    • 使用NLTK来处理这个句子,tokenize words,POS tagging等。
    • 使用 NLTK PMI 计算仅在一类中出现频率最高的二元组或三元组

    创建语料库是一项艰巨的预处理、检查、标记等工作,但其好处是为特定领域准备模型多次提高准确性。如果您可以获得已经准备好的语料库,请继续进行情感分析;)

    【讨论】:

      【解决方案5】:

      您可以从 Datafiniti 获得大量在线评论。大多数评论都带有评级数据,这将提供比正面/负面更多的情绪粒度。这是list of businesses with reviews,这是list of products with reviews

      【讨论】:

        【解决方案6】:

        这是我几周前写的一个列表,来自my blog。其中一些数据集最近已包含在 NLTK Python 平台中。

        词典


        数据集


        参考资料:

        【讨论】:

        • 不错的答案。非常感谢库尔特。
        猜你喜欢
        • 2023-01-19
        • 2010-11-14
        • 1970-01-01
        • 2014-08-27
        • 2014-04-30
        • 2015-01-12
        • 2016-06-29
        • 1970-01-01
        • 2017-11-11
        相关资源
        最近更新 更多