【问题标题】:Can Python Flair interpret discontinuous annotations?Python Flair 可以解释不连续的注释吗?
【发布时间】:2019-06-19 22:42:23
【问题描述】:

我正在用 Python Flair 训练一个顺序标记模型。我的原始文本数据包含我希望模型能够识别的概念短语,这些概念短语在某些情况下由一组不连续的标记表示,中间有单词。一个例子是“钾和镁替代”,其中“钾替代”是一个由不连续标记表示的概念,“镁替代”是另一个连续但与第一个概念重叠的概念。 我训练了另一个 Flair 模型,其中所有概念都可以用一个标记来表示,并且为该数据构建语料库 CoNLL 文件非常简单。在这种情况下,不连续和重叠的概念带来了 3 个问题:

  1. 如果我在 CoNLL 文件中将其适当地标记为:

"镁B-CONC1

替换 I-CONC1"

  1. 它是否将不连续概念识别为上述短语中的“钾替代”:

"钾 B-CONC2

和O

镁氧

替换 I-CONC2"

  1. 如何在 CoNLL 文件中表示重叠的概念?有没有其他方法可以用原始文本和开始/结束索引列表来表示语料库?

PS 在上下文中必须非常清楚,但就单词概念而言,我的意思是我试图训练模型识别的单个或多个标记标签/术语。

感谢您的建议或信息

【问题讨论】:

    标签: python bert-language-model


    【解决方案1】:

    Flair 不支持不连续和重叠的注释。 更多信息请访问https://github.com/zalandoresearch/flair/issues/824#issuecomment-504322361

    【讨论】:

      猜你喜欢
      • 2019-07-26
      • 2018-09-05
      • 1970-01-01
      • 2010-10-01
      • 2020-07-11
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多