【发布时间】:2013-11-19 21:41:05
【问题描述】:
我有大量多语言 html 文件,我想从中提取结构化数据。我还有大量出现在语料库中的实体名称列表(+5M)(多词:人员和组织名称、地点等),可以提供帮助。
我正在寻找一个 Python 库,它可以使用实体名称对文本进行快速标记(也许但没有必要执行其他任务,例如 POS 标记和基本 NER)。结果应该可以使用简单的 REGEXP 进行搜索,例如带有标签的表达式。例如:“.+?[last_name] (is|was)(best)?[organisation_name] 的 CEO”。
我尝试在 NLTK 和 CLIPS 模式中找到此功能(pattern.search 类似)但失败了。具有此类功能的最接近的开源库是 GATE,但它是 Java 语言,对于这项任务来说似乎有点过头了。
谢谢,
达沃
【问题讨论】:
-
要求人们找到工具或库的问题在 SO 上是题外话。
-
对不起,我不明白 - 我应该请求和平代码来解决问题吗?
-
SO 不处理询问库/工具的问题。这只是这里的规则。请求代码会更好,但您必须自己努力解决问题。也许您应该查看rules 在这里提出问题。
标签: python regex text-mining information-extraction