【发布时间】:2019-02-01 11:23:33
【问题描述】:
我正在尝试从非结构化文本中提取信息。例如
这位首席执行官最近寻求为正在开发的卡车添加功能的建议,他透露了一些计划中的功能,例如续航里程为 400 到 500 英里的选项、带动态悬架的双电机全轮驱动动力总成,'300,000磅的牵引能力”,等等。当被问及发布日期时,CEO 给出了 2021 年第二季度的估计时间。
理想的输出应该是这样的
[minRange = 400, maxRange = 500, allWheelDrive = TRUE, susepnsionType = 'Dynamic', releaseDate = 2021-04-01 00:00]
因为我要提取的数据并不总是以行为良好的对结构(例如,上面的 releaseDate 提取需要对整个句子进行语义处理)正则表达式和一些规则可能不够用。我认为我需要对我的数据集进行注释,然后使用 NLP 和 spaCy、NLTK 或 Stanford NLP 等学习工具从未来的示例中提取属性值对。
我正在尝试使用在线资源/教程,但它们似乎都专注于单独的命名实体识别或提取与基于字符串的实体的关系(例如 LOC:Paris、REL:is capital of、LOC:France )。我需要提取的大多数(不是全部)数据只是属性-数字值对。如何使用 NLP 工具完成此任务?在大多数情况下,我只是不确定这些数字是否应该被视为实体,如果是的话,是否应该将它们注释为名为“Value”的实体或赋予具有相关属性的实体名称。例如,这两种方式中哪一种是更好的注释方式?:
- 车辆的牵引能力为300,000 lbs
- 车辆的牵引能力为300,000 lbs,关系:“具有牵引能力”
【问题讨论】:
-
你找到了好方法吗?
标签: nlp stanford-nlp spacy information-extraction named-entity-recognition