【问题标题】:Summarization Algo for novels : Supervised learning小说摘要算法:监督学习
【发布时间】:2016-11-03 12:09:05
【问题描述】:

我想写一个可以自动创建文章摘要的学习算法。

例如,有一些 PDF 格式的小说(一类将其视为过滤器)。我想创建一个自动创建摘要的过程。 我们可以提供一些样本数据以在监督学习方法中实现它。 请建议我如何正确实施。

我是初学者,正在学习 Andrew Ng 课程,了解一些常见算法(线性 reg、逻辑、神经网络)+ Udacity 统计课程,并准备更深入地研究 NLP、深度学习等,但动机是解决这个问题. :) 在此先感谢

【问题讨论】:

  • 这是一个广泛且未解决的话题。我认为作为初学者解决这类问题不是一个好主意。如果你真的觉得你必须 - 只需在谷歌上搜索任何关于该主题的最新论文并尝试重新实现他们的想法(正如我所说 - 这是一个广泛且未解决的问题,有数百个“解决方案”可以做某事,而不是单个这真的有效)。

标签: machine-learning nlp artificial-intelligence deep-learning supervised-learning


【解决方案1】:

关键字是Automatic Summarization

通常,自动摘要有两种方法:提取抽象

  • 提取方法通过选择原始文本中现有单词、短语或句子的子集来形成摘要。
  • 抽象方法构建内部语义表示,然后使用自然语言生成技术创建更接近人类可能生成的摘要。

抽象摘要要困难得多。 Alexander M. Rush、Sumit Chopra、Jason Weston 在A Neural Attention Model for Abstractive Sentence Summarization 中描述了一种有趣的方法(源代码基于论文here)。

在 Word (AutoSummary Tool) 中使用了“简单”的方法:

AutoSummarize 通过分析文档并为每个句子分配分数来确定关键点。包含在文档中经常使用的单词的句子被赋予更高的分数。然后,您可以选择分数最高的句子的百分比显示在摘要中。

您可以选择是否突出显示文档中的关键点、在文档顶部插入执行摘要或摘要、创建新文档并将摘要放在那里,或者隐藏除摘要之外的所有内容。

如果您选择突出显示关键点或隐藏除摘要之外的所有内容,您可以在仅显示文档中的关键点(隐藏文档的其余部分)和在文档中突出显示它们之间切换。阅读时,您还可以随时更改详细程度。

无论如何,自动数据(文本)摘要是机器学习/数据挖掘的一个活跃领域,正在进行许多研究。您应该开始阅读一些不错的概述:

【讨论】:

    猜你喜欢
    • 2018-10-01
    • 2017-08-21
    • 2014-04-20
    • 2013-03-24
    • 2021-10-17
    • 2014-01-29
    • 2019-02-20
    • 2017-07-27
    • 2022-08-08
    相关资源
    最近更新 更多