根据预先存在的主题自动生成摘要？答案

【问题标题】：Autogenerate summaries based on pre-existing topics?根据预先存在的主题自动生成摘要？
【发布时间】：2016-05-05 03:41:23
【问题描述】：

给定一个文档，我想执行以下操作：

使用预先存在的主题创建摘要

在第一个场景中，文档以统一的方式整齐地组织。例如，大多数维基百科电影文章都有以下子主题（例如：https://en.wikipedia.org/wiki/Between_Us_(2012_film)）

情节
演员表
接待处
其他可选主题

在第二种情况下，文档包含与上述相同的信息；但是，文档没有干净的组织。文档可能使用相同或相似的语言，但组织方式不同。

在这两种情况下，鉴于子主题，我想从文档中提取此信息。

有没有我可以使用的机器学习/自然语言处理策略/算法？算法的组合很好。大部分工作的算法也很好。

更新：看起来我想要的是信息提取。

【问题讨论】：

标签： algorithm machine-learning nlp artificial-intelligence information-extraction

【解决方案1】：

解决此问题的一种可能方法是将这些主题分配给每个部分 [1] 中的句子。由于您似乎有注释数据，您可以用它来训练“句子主题/部分模型”。根据 [1]，即使是多项式朴素贝叶斯分类器也能很好地完成这项工作。

至于摘要方面，除非您有训练数据，否则我会研究 extractive 摘要技术 [2] - 即从现有句子中选择最佳句子进行摘要。 [2] 的工作，LexRank，有一些你可以在野外使用的实现。如果您有要学习的摘要，您也可以研究从现有句子 [3] 生成新句子的抽象技术。如果您检查 [4]，则 [3] 有一些示例实现。

[1]http://bioinformatics.oxfordjournals.org/content/25/23/3174.full

[2]http://jair.org/papers/paper1523.html

[3]http://arxiv.org/abs/1509.00685

[4]http://gitxiv.com/

【讨论】：

有趣值得研究。但是这些算法是否用于生产，即在野外？担心它们可能不够健壮
看过 [1]。一些问题：（a）手动句子注释，（b）不清楚它如何推广到其他领域。我想 [1] 之所以有效，是因为生物医学文章大多写成相同的。优点是它使用了一种相对简单的方法，应该很容易验证。
查看了 LexRank。不幸的是，“目标是生成关于同一主题的多个文档的摘要。”我正在尝试生成单个文档的摘要。
我不知道跨域泛化的技术，所以构建域模型可能是你最好的希望，你可能只需要“咬住有监督的子弹”，但我很乐意被证明是错误的。至于抽取式摘要技术，它们可以应用于单个文档（假设文档足够长，可以首先确定最“显着”的句子......）。至于这些技术在野外是如何使用的：他们让他们的发明者被谷歌和 Facebook 雇佣...... :-)
[3] 似乎是为了“头条新闻”。不过它相当先进，值得研究。

【解决方案2】：

我能想到的最简单的方法是将其作为一个序列分类问题，其中类是子主题。给定一个句子（或者可能是一个段落），分类器输出子主题概率。训练 LSTM 分类器应该是可能的，因为您有很多标记数据（句子、子主题）

这种方法的问题可能是最终输出不连贯。使用段落可能会有所帮助，或者可能以之前的分类概率为条件。

【讨论】：