【发布时间】:2019-11-25 21:01:24
【问题描述】:
所以我的文本如下所示:
他也可能有 应使用 ativan IV 或 IM 治疗的反复发作 并且不一定表明患者需要返回 除非他们持续超过 5 分钟或他 有多次反复发作或并发症,例如 愿望。
还有注释文件,例如:
T1 原因 16 33 反复发作
上面的注解告诉了实体的ID、span(字符位置)和实体本身。我的目标是对上述数据进行 NER(命名实体识别)。根据我的研究,我知道我必须对数据进行 BIO(开始、内部和外部)标记,这将使我的数据如下所示:
O - also
O - may
O - have
B - recurrent
I - seizures
在 BIO 标记之后,我想使用数据来获取一些词嵌入并将其输入到分类器中,这将让我获得带有测试数据的实体类型。
我给出的流程大纲是否正确,或者谁能解释我如何解决这个问题?
【问题讨论】:
标签: python machine-learning nlp