从网页中提取语义数据答案

【问题标题】：Extracting semantic data from webpages从网页中提取语义数据
【发布时间】：2011-02-15 09:17:33
【问题描述】：

我有兴趣从网页和其他当前不具备语义意识的来源中提取语义数据（简单的模板内容）。我以前用多种不同的语言编写过爬虫和手动解析器，但似乎总是有很多样板和页面特定的代码，想知道你们是否知道任何简化流程的平台或框架（开源只是请）。

如果我找不到一个，我会写一个，因此也可以提供指向类似系统或框架建议的链接。

【问题讨论】：

【解决方案1】：

该领域被称为“自动包装器提取”，是一个活跃的研究领域，但我还没有看到好的开源工具包。一家名为 lixto 的公司制作了一款您可能感兴趣的商业工具。我很想看到一个解决这个问题的开源项目。

【讨论】：