【问题标题】:How to analyze text in Ruby? [closed]如何在 Ruby 中分析文本? [关闭]
【发布时间】:2015-03-22 03:47:44
【问题描述】:

寻找一种方法来分析某些特征的文本,例如:

  1. 识别首字母缩写词和头衔(ICANN、Dr. Mr. Ph. D. 等)
  2. 行话
  3. 阅读水平
  4. 副词和形容词
  5. 正确的语法和标点符号
  6. 主动和被动语态

我看了Stanford NLP library,但不知道他们在说什么(可能是因为我没有语言学学位)。

是否有可以提供这种文本分析的 Ruby gem?

【问题讨论】:

    标签: ruby gem nlp linguistics text-analysis


    【解决方案1】:

    1.) 对于缩写,您可以从这里窃取:https://github.com/diasks2/pragmatic_segmenter/blob/master/lib/pragmatic_segmenter/abbreviation.rb。至于首字母缩略词,这个列表可能是无穷无尽的,所以它真的取决于你想要做什么。您可能会尝试使用正则表达式来提取首字母缩写词。

    2.) 不确定,您必须更具体地说明您要完成的工作。

    3.) 使用lingua gem 并查看此tutorial

    4.) 查看 engtagger,一个 Ruby 词性标注库。

    5.) 我不知道有任何库可以自动检测正确的语法/标点错误(因为在很多情况下没有明确的正确答案)。然而,我确实做了一个 gem,人类可以纠正一个句子,gem 会自动显示错误句子和正确句子之间的差异,包括错误数量、错误类型等。它被称为Chat Correct

    6.) 查看名为 verbs 的 gem。

    【讨论】:

    • 感谢您的周到回答。看来我可能需要针对不同特征的不同工具。
    【解决方案2】:

    是的,你可能想看看这个介绍:

    http://www.slideshare.net/TomCartwright/natual-language-processing-in-ruby

    最后一张幻灯片显示了 Text、Treat、Tokenizer、Punkt 和 Chronic 的建议。

    【讨论】:

      【解决方案3】:

      查看链接解析器 gem。它分析整个句子,例如,您可以获取主语、动词、副词和形容词。我相信您还可以使用此 gem 识别句子中的首字母缩写词和标题。

      https://github.com/ged/linkparser

      此 gem 是由 Abiword 团队领导的大型项目 Link-grammar 的包装器。

      http://www.abisource.com/projects/link-grammar/

      确实是一个有趣的项目。

      【讨论】:

        猜你喜欢
        • 2011-11-28
        • 1970-01-01
        • 2015-11-09
        • 2013-06-10
        • 1970-01-01
        • 2010-10-10
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多