【问题标题】:Unsupervised sentiment Analysis using doc2vec使用 doc2vec 进行无监督情绪分析
【发布时间】:2018-11-09 20:32:30
【问题描述】:

伙计们,

我在 Google 上搜索了不同类型的论文/博客/教程等,但没有发现任何有用的信息。如果有人可以帮助我,我将不胜感激。 请注意,我不是要求一步一步的代码,而是一个想法/博客/论文或一些教程。

这是我的问题陈述:

就像情绪分析用于识别积极和 一个句子的否定语气,我想找出一个句子是否是 前瞻性(未来展望)声明与否。

我不想用词袋法来总结前瞻性词/短语的数量,例如“前进”、“在不久的将来 " 或 "5 年后" 等等。我不确定是否可以使用 word2vec 或 doc2vec。请赐教。

谢谢。

【问题讨论】:

  • 您为什么不想使用基于此类语句中出现的单词/短语的词袋技术?它可能运作良好!同样,一些使用 word2vec/doc2vec 嵌入的方法可能会有所帮助——你必须尝试一下。你试过什么了?您拥有或期望能够创建什么样的训练数据集?

标签: nlp gensim word2vec sentiment-analysis doc2vec


【解决方案1】:

看来你感兴趣的是在文本中寻找时间陈述。

不确定您的最终输出,但我们假设您要查找包含它们的时间短语或句子。

一种方法可能如下:

  1. 创建时间术语列表 [天、年、月、现在、以后]
  2. 只选择带有关键术语的句子
  3. 在 doc2vec 模型中使用句子
  4. 推断向量并为新句子使用距离度量
    • GMM 集群 + 限制
    • 与平均值的距离

另一种方法可能是:

  1. 创建时间术语列表 [天、年、月、现在、以后]
  2. 做Bigram和Trigram搭配提取
  3. 使用时间术语保留相关搭配
  4. 在一种bag-of-collocations 方法中使用相关搭配
    • 相关搭配的匹配二元特征向量
    • 训练分类器以识别更高级别的文本

如果您有大量文本,这听起来像是 Bootstrapping 方法的一个很好的例子。

两者实际上都是半监督的,因为需要找到初始时间项,但即使使用 word2vec 方案和引导程序也可以自动化

【讨论】:

    猜你喜欢
    • 2011-04-24
    • 2019-05-17
    • 2015-09-23
    • 2012-05-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-11-06
    • 2022-01-10
    相关资源
    最近更新 更多