【问题标题】:How to get logical parts of a sentence with java?如何用java获取句子的逻辑部分?
【发布时间】:2010-04-23 15:09:11
【问题描述】:

假设有一句话:

On March 1, he was born.

改成

He was born on March 1.

不会破坏句子的意义,它仍然有效。以任何其他方式洗牌会产生奇怪的无效句子。所以基本上,我说的是句子的一部分,它使信息更具体,但删除它们并不会破坏整个句子。是否有任何 NLP 库可以识别这些部分?

【问题讨论】:

    标签: java artificial-intelligence nlp linguistics


    【解决方案1】:

    成分

    听起来您想识别句子的constituents,它们是根据语言语法作为单个单元运行的单词组。

    事实上,当语言学家试图发现一种语言的语法时,他们部分是通过查看movement 来完成的。就像在您的示例中一样,可以将一组单词移动到句子中的不同位置,同时仍保留句子的含义。

    成分可以是单个单词、短语,甚至是更大的组,例如整个从句。在一个句子中,它们具有嵌套的层次结构。例如,您给出的第一个例句可以分析为:

    (S  (PP (IN On) (NP (NNP March) (CD 1)))
        (NP (PRP he))
        (VP (VBD was) (VP (VBN born))))
    

    整个句子由prepositional phrasenoun phraseverb phrase 组成。介词短语可以进一步分解为一个由单个单词“On”后跟一个名词短语组成的单元。

    短语结构解析器

    要自动查找成分,您可能需要使用短语结构解析器。有许多这样的解析可供选择,它们可以作为开源使用,包括:

    Stanford 和 Berkeley 解析器可能是最容易安装和使用的。正如Cer et al. 2010 中所见,最准确的解析器是 Berkeley 和 Charniak。 Bikel 解析器比其他解析器更慢且准确性更低。

    在线演示

    斯坦福解析器here 有一个在线演示。我使用演示来生成上面给出的例句解析。

    关于删除的说明

    在每个成分中,都会有一个head word。以名词短语为例:

    (NP (DT The) (JJ big) (JJ blue) (NN ball))

    这里的中心词是名词ball,由形容词bigblue修饰。如果这个名词短语被嵌入到一个句子中,您可以删除这些修饰语,并且仍然有一些与原始句子的含义一致但不那么具体的内容。

    在名词短语中,一般可以删除形容词、非中心名词和嵌套介词短语。

    在动词短语和完整从句中,事情变得更加棘手,因为删除作为动词参数的材料可以完全改变句子的解释。例如,从He sold Jim the book 中删除the book 会导致He sold Jim

    【讨论】:

    • 我只是在查看所有这些解析器,并在nlp.stanford.edu/pubs/lrecstanforddeps_final_final.pdf找到了丹尼尔写的一篇论文
    • 是的,这实际上是我的论文 :)
    • 我想知道 Link Grammer Parser 的性能,但我在你的论文中看到你已经在 RelEx 解析器下覆盖了它。
    • 嗨@dmcer,论文中的结论是否仍然存在,特别是 Charniak 的解析器比斯坦福的解析器性能更好,并且更推荐将 Charniak 用于斯坦福依赖项?
    • 谢谢@dmcer,只是想检查一下软件的最新更新是否会对论文的结论产生巨大的影响/变化。
    【解决方案2】:

    OpenNLP 可能会为您做一些事情。 Phrase chunking 和解析应该可以帮助你。然而,这并不是一个特别简单的问题,随着句子结构变得更加复杂和模棱两可,算法往往会变得混乱。您有时应该能够重新排列句子中的短语并保持其含义。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2010-10-04
      • 1970-01-01
      • 1970-01-01
      • 2015-09-17
      • 2015-05-16
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多