【问题标题】:summarize text or simplify text [closed]总结文本或简化文本[关闭]
【发布时间】:2011-07-25 15:50:06
【问题描述】:

是否有任何库,最好是 Python,但至少是开源的,可以总结和/或简化自然语言文本?

【问题讨论】:

标签: python nlp text-processing


【解决方案1】:

也许你可以试试sumy。这是我用 Python 编写的一个非常小的库。实现了 Luhn 和 Edmundson 的方法、LSA 方法、SumBasic、KL-Sum、LexRank 和 TextRank 算法。它是 Apache2 许可的,支持捷克语、斯洛伐克语、英语、法语、日语、中文、葡萄牙语、西班牙语和德语。

如果您缺少某些内容,请随时打开问题或发送拉取请求。

【讨论】:

  • 我爱苏米。它非常易于使用。你最喜欢的方法是什么?与其他选项相比,LSA 不是最新的自然语言方法,理论上是最好的吗?
  • 嗨,谢谢。与几乎所有事情一样,没有灵丹妙药,但 LSA 是 sumy 中最先进的方法。
  • 我用 sumy 对维基百科文章和同行评议的文章进行了大量测试,我个人在 KL 上获得了迄今为止最好的结果,但它也比任何一个都花费了大约 200 倍的时间其他总结器。
  • @Xodarap777 你能写出你尝试过的其他总结器吗?甚至可以通过实验链接到您的代码?
  • @Xodarap777 您能分享一下您用来比较生成的摘要的测量类型吗?
【解决方案2】:

看看这个article,它详细研究了这些方法和包:

  1. Lex_rank (sumy)
  2. LSA (sumy)
  3. 卢恩(苏梅)
  4. PyTeaser
  5. GensimTextRank
  6. PyTextRank
  7. 谷歌TextSum

文章的结尾做了一个'summary'。

sumy@miso.belica的作者在上面的回答中给出了描述。

各种其他 ML 技术已经兴起,例如 Facebook/NAMAS 和 Google/TextSum,但仍需要在 Gigaword 数据集和大约 7000 个 GPU 小时中进行大量训练。数据集本身非常昂贵。

总之,如果您无法使用高端机器,我想说 sumy 是目前市场上的最佳选择。非常感谢 @miso.belica 提供这个精彩的包裹。

【讨论】:

    【解决方案3】:

    我不确定目前是否有任何库可以做到这一点,因为文本摘要,或者至少 可理解 文本摘要并不是简单的即插即用就能轻松完成的事情图书馆。

    以下是我设法找到的一些与文本摘要相关的项目/资源的链接,以帮助您入门:

    希望有帮助:)

    【讨论】:

    • 答案中的一些死链接,替换为来自archive.org/web的缓存页面
    【解决方案4】:

    不久前,我使用 Classifier4J 库中的算法,使用 NLTK 为 python 编写了一个摘要库。这很简单,但它可能适合任何需要总结的人的需求:https://github.com/thavelick/summarize

    【讨论】:

      【解决方案5】:

      试试Open Text Summarizer,它是在 GPL 开源许可下发布的。它工作得相当好,但自 2007 年以来一直没有开发工作。

      原始代码是用 C(库和命令行实用程序)编写的,但有多种语言的包装器:

      【讨论】:

      【解决方案6】:

      我也需要同样的东西,但我在 Python 中找不到任何可以帮助我获得全面结果的东西。

      所以我发现这个 Web 服务非常有用,他们有一个免费的 API,它会提供 JSON 结果,我想与你分享。

      在这里查看:http://smmry.com

      【讨论】:

        【解决方案7】:

        不是python,而是MEAD 将进行文本摘要(它在Perl 中)。通常出来的东西是可以理解的,如果不是总是特别流利的声音。另请查看summarization.com,了解有关文本摘要任务的大量信息。

        【讨论】:

        • summarization.com 的链接已失效。请更换它。
        猜你喜欢
        • 1970-01-01
        • 2012-03-24
        • 2014-09-10
        • 2011-08-18
        • 1970-01-01
        • 2011-10-03
        • 2012-02-03
        • 1970-01-01
        • 2012-10-09
        相关资源
        最近更新 更多