【发布时间】:2011-02-15 09:17:33
【问题描述】:
我有兴趣从网页和其他当前不具备语义意识的来源中提取语义数据(简单的模板内容)。我以前用多种不同的语言编写过爬虫和手动解析器,但似乎总是有很多样板和页面特定的代码,想知道你们是否知道任何简化流程的平台或框架(开源只是请)。
如果我找不到一个,我会写一个,因此也可以提供指向类似系统或框架建议的链接。
【问题讨论】:
标签: screen-scraping semantics web-crawler
我有兴趣从网页和其他当前不具备语义意识的来源中提取语义数据(简单的模板内容)。我以前用多种不同的语言编写过爬虫和手动解析器,但似乎总是有很多样板和页面特定的代码,想知道你们是否知道任何简化流程的平台或框架(开源只是请)。
如果我找不到一个,我会写一个,因此也可以提供指向类似系统或框架建议的链接。
【问题讨论】:
标签: screen-scraping semantics web-crawler
该领域被称为“自动包装器提取”,是一个活跃的研究领域,但我还没有看到好的开源工具包。一家名为 lixto 的公司制作了一款您可能感兴趣的商业工具。我很想看到一个解决这个问题的开源项目。
【讨论】: