【问题标题】:Information extraction with Python using huge list of entity names [closed]使用大量实体名称的 Python 进行信息提取 [关闭]
【发布时间】:2013-11-19 21:41:05
【问题描述】:

我有大量多语言 html 文件,我想从中提取结构化数据。我还有大量出现在语料库中的实体名称列表(+5M)(多词:人员和组织名称、地点等),可以提供帮助。

我正在寻找一个 Python 库,它可以使用实体名称对文本进行快速标记(也许但没有必要执行其他任务,例如 POS 标记和基本 NER)。结果应该可以使用简单的 REGEXP 进行搜索,例如带有标签的表达式。例如:“.+?[last_name] (is|was)(best)?[organisation_name] 的 CEO”。

我尝试在 NLTK 和 CLIPS 模式中找到此功能(pattern.search 类似)但失败了。具有此类功能的最接近的开源库是 GATE,但它是 Java 语言,对于这项任务来说似乎有点过头了。

谢谢,

达沃

【问题讨论】:

  • 要求人们找到工具或库的问题在 SO 上是题外话。
  • 对不起,我不明白 - 我应该请求和平代码来解决问题吗?
  • SO 不处理询问库/工具的问题。这只是这里的规则。请求代码会更好,但您必须自己努力解决问题。也许您应该查看rules 在这里提出问题。

标签: python regex text-mining information-extraction


【解决方案1】:

您可以从http://htql.net 尝试 htql.RegEx。以下是网站上的示例:

import htql; 
address = '88-21 64th st , Rego Park , New York 11374'
states=['Alabama', 'Alaska', 'Arizona', 'Arkansas', 'California', 'Colorado', 'Connecticut', 
    'Delaware', 'District Of Columbia', 'Florida', 'Georgia', 'Hawaii', 'Idaho', 'Illinois', 'Indiana', 
    'Iowa', 'Kansas', 'Kentucky', 'Louisiana', 'Maine', 'Maryland', 'Massachusetts', 'Michigan', 
    'Minnesota', 'Mississippi', 'Missouri', 'Montana', 'Nebraska', 'Nevada', 'New Hampshire', 
    'New Jersey', 'New Mexico', 'New York', 'North Carolina', 'North Dakota', 'Ohio', 'Oklahoma', 
    'Oregon', 'PALAU', 'Pennsylvania', 'PUERTO RICO', 'Rhode Island', 'South Carolina', 'South Dakota', 
    'Tennessee', 'Texas', 'Utah', 'Vermont', 'Virginia', 'Washington', 'West Virginia', 'Wisconsin', 
    'Wyoming']; 

a=htql.RegEx(); 
a.setNameSet('states', states);

state_zip1=a.reSearchStr(address, "&[s:states][,\s]+\d{5}", case=False)[0]; 
# state_zip1 = 'New York 11374'

state_zip2=a.reSearchList(address.split(), r"&[ws:states]<,>?<\d{5}>", case=False)[0]; 
# state_zip2 = ['New', 'York', '11374']

【讨论】:

  • 您可能只想为此使用内置的 python 正则表达式:re.findall('|'.join(states), states)
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2011-03-08
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2012-10-03
相关资源
最近更新 更多