【问题标题】:Sentiment Lexicon for stock market prediction用于股市预测的情绪词典
【发布时间】:2018-03-19 10:35:49
【问题描述】:

我正在制作一个 Stock Market Predictor 机器学习应用程序,该应用程序将尝试预测某只股票的价格。出于这个原因,它将获取有关该特定公司的新闻文章/推文以及该公司的历史数据。

我的问题是,我需要首先为该公司的头条/推文构建情绪分析器。我不想训练一个模型来给我情绪分数,我想要一个包含一袋与股票市场和金融相关的词的情绪词典。

有没有这样的词典/词典可供我在我的项目中使用?

谢谢

【问题讨论】:

标签: python machine-learning nlp nltk sentiment-analysis


【解决方案1】:

不容易获得,但自己构建起来很简单。只需下载一个带有情感注释的 twitter 数据集,为其构建一个单词字典,遍历条目并将 +1/(-1) 添加到正面(/负面)单词。最后,将每个单词的值除以其各自的出现次数,您将得到每个单词的朴素情绪分数,接近 1(/-1) 的值表示强烈的情绪电荷,您可以将其用于您的 BoW 任务。

【讨论】:

  • 构建一个 pos/neg 词的字典似乎并不那么简单。我需要特别注意我认为与金融相关的词汇种类,而且我可以分类的词汇很多。
  • 您更有可能无法找到已经为您量身定制的东西。也许对上述流程进行后处理,过滤掉不符合您需求的单词?
【解决方案2】:

圣母大学会计和金融软件存储库的工作人员开发了一个基于财务的词典,该词典可能与您的目的非常相关。我不太确定词典是如何开发的,但我相信它可能是通过对财务文件(即 10-K)的机器学习生成的,或者是由工作人员定性注释的。

词典包含 354 个肯定词,2355 个否定词。不幸的是,单词不带有基于频谱的情绪评分,它们仅通过输入词典的年份来识别。您可以简单地为所有单词设置一个总分,或者如果您个人有时间评价单词情绪(如果您这样做,请确保发布您的作品!)。该词典还包含许多不包括正面和负面的类别,包括不确定性、诉讼和有趣。

我自己在单个句子新闻摘录上测试了这个词典,它表现得非常好(我使用 vader 作为基础词典,然后在顶部添加了金融词典)。

查找字典here

【讨论】:

    【解决方案3】:

    有一些公开可用的情感词典(不是特定领域的,但这通常不是问题):

    1. 英文:http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm
    2. 法语:http://advanse.lirmm.fr/feel.php

    【讨论】:

    • 我不同意,领域依赖性是基于词典的方法中的一个关键挑战,并且为特定领域定制词典可以成倍地提高准确性。例如,假设您正在确定书评与汽车评论的情绪。在每个领域的上下文中使用“不可预测”这个词是完全相反的,并且会显着扭曲结果。
    • 当然,但我相信上面提到的通用词典是一个很好的起点(大多数术语不是特定领域的)。
    猜你喜欢
    • 2011-05-10
    • 1970-01-01
    • 2019-11-16
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2023-03-03
    相关资源
    最近更新 更多