【问题标题】:Autogenerate summaries based on pre-existing topics?根据预先存在的主题自动生成摘要?
【发布时间】:2016-05-05 03:41:23
【问题描述】:

给定一个文档,我想执行以下操作:

  • 使用预先存在的主题创建摘要

在第一个场景中,文档以统一的方式整齐地组织。 例如,大多数维基百科电影文章都有以下子主题(例如:https://en.wikipedia.org/wiki/Between_Us_(2012_film)

  • 情节
  • 演员表
  • 接待处
  • 其他可选主题

在第二种情况下,文档包含与上述相同的信息;但是,文档没有干净的组织。文档可能使用相同或相似的语言,但组织方式不同。

在这两种情况下,鉴于子主题,我想从文档中提取此信息。

有没有我可以使用的机器学习/自然语言处理策略/算法?算法的组合很好。大部分工作的算法也很好。

更新:看起来我想要的是信息提取

【问题讨论】:

    标签: algorithm machine-learning nlp artificial-intelligence information-extraction


    【解决方案1】:

    解决此问题的一种可能方法是将这些主题分配给每个部分 [1] 中的句子。由于您似乎有注释数据,您可以用它来训练“句子主题/部分模型”。根据 [1],即使是多项式朴素贝叶斯分类器也能很好地完成这项工作。

    至于摘要方面,除非您有训练数据,否则我会研究 extractive 摘要技术 [2] - 即从现有句子中选择最佳句子进行摘要。 [2] 的工作,LexRank,有一些你可以在野外使用的实现。如果您有要学习的摘要,您也可以研究从现有句子 [3] 生成新句子的 抽象 技术。如果您检查 [4],则 [3] 有一些示例实现。

    [1]http://bioinformatics.oxfordjournals.org/content/25/23/3174.full

    [2]http://jair.org/papers/paper1523.html

    [3]http://arxiv.org/abs/1509.00685

    [4]http://gitxiv.com/

    【讨论】:

    • 有趣值得研究。但是这些算法是否用于生产,即在野外?担心它们可能不够健壮
    • 看过 [1]。一些问题:(a)手动句子注释,(b)不清楚它如何推广到其他领域。我想 [1] 之所以有效,是因为生物医学文章大多写成相同的。优点是它使用了一种相对简单的方法,应该很容易验证。
    • 查看了 LexRank。不幸的是,“目标是生成关于同一主题的多个文档的摘要。”我正在尝试生成单个文档的摘要。
    • 我不知道跨域泛化的技术,所以构建域模型可能是你最好的希望,你可能只需要“咬住有监督的子弹”,但我很乐意被证明是错误的。至于抽取式摘要技术,它们可以应用于单个文档(假设文档足够长,可以首先确定最“显着”的句子......)。至于这些技术在野外是如何使用的:他们让他们的发明者被谷歌和 Facebook 雇佣...... :-)
    • [3] 似乎是为了“头条新闻”。不过它相当先进,值得研究。
    【解决方案2】:

    我能想到的最简单的方法是将其作为一个序列分类问题,其中类是子主题。给定一个句子(或者可能是一个段落),分类器输出子主题概率。训练 LSTM 分类器应该是可能的,因为您有很多标记数据(句子、子主题)

    这种方法的问题可能是最终输出不连贯。使用段落可能会有所帮助,或者可能以之前的分类概率为条件。

    【讨论】:

      猜你喜欢
      • 2019-10-14
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-07-08
      • 2021-11-10
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多