哪个解析器最适合 [生物医学] 关系提取？答案

【问题标题】：which parser is most suitable for [biomedical] relation extraction?哪个解析器最适合 [生物医学] 关系提取？
【发布时间】：2012-06-20 09:25:19
【问题描述】：

我已经阅读了关于连续解析器和依赖解析器的信息。但很困惑哪个可能是最好的选择。

我的任务是从英文维基百科文本中提取关系（以后也可能包括其他来源）。我需要的是两个有趣的实体之间的语义路径（只有最重要的信息）。例如，

表单文本： “在美国，众所周知，糖尿病是一种常见病。”

我需要以下信息： “糖尿病就是疾病”

您会建议哪种解析器实现？斯坦福？麦芽解析器？还是其他？

感谢任何线索。

【问题讨论】：

这里videolectures.net/ecmlpkdd09_reichartz_dtkrenlt 是相关的...

标签： parsing nlp information-extraction

【解决方案1】：

您的意思是句法解析器与依赖解析器？ online Stanford Parser 向您展示了这些解析的不同之处。

句法分析

(ROOT
  (S
    (PP (IN In)
      (NP (NNP America)))
    (, ,)
    (NP (NNP diabetes))
    (VP (VBZ is) (, ,)
      (PP (IN as)
        (NP (NN everybody) (NNS knows)))
      (, ,)
      (NP (DT a) (JJ common) (NN disease)))))

依赖解析（折叠）

prep_in(disease-13, America-2)
nsubj(disease-13, diabetes-4)
cop(disease-13, is-5)
nn(knows-9, everybody-8)
prep_as(disease-13, knows-9)
det(disease-13, a-11)
amod(disease-13, common-12)
root(ROOT-0, disease-13)

它们实际上并没有那么不同（有关详细信息，请参阅 Collins 的论文或 Nieve 的书），但我发现依赖解析更易于使用。如您所见，您与糖尿病 -> 疾病有直接关系。然后你就可以附上系词了。

【讨论】：

对于生物医学关系，GENIA 解析器可能有用，但这取决于使用哪种关系。去看看文献吧，我建议最近几年的BioNLP比赛。
哦，非常感谢您的信息，让我阅读您提到的内容。所以，你也认为依赖解析器更适合这种情况，对吧？我更喜欢依赖解析器的另一个原因是速度。连续性解析器似乎要慢得多。
我认为依赖解析器返回的关系更容易处理，而不是构建一些树对象并尝试将节点相互关联。主要是节省一些时间。

【解决方案2】：

当然，像斯坦福依赖解析器这样的依赖解析器将是您的正确选择。我建议使用BLLIP reranking parser 和David McClosky's biomedical model 来获取短语结构，然后使用Stanford Dependencies 转换为依赖项。这样，您将获得更好的生物医学文本依赖树/图。

【讨论】：