【问题标题】:Extracting semantic data from webpages从网页中提取语义数据
【发布时间】:2011-02-15 09:17:33
【问题描述】:

我有兴趣从网页和其他当前不具备语义意识的来源中提取语义数据(简单的模板内容)。我以前用多种不同的语言编写过爬虫和手动解析器,但似乎总是有很多样板和页面特定的代码,想知道你们是否知道任何简化流程的平台或框架(开源只是请)。

如果我找不到一个,我会写一个,因此也可以提供指向类似系统或框架建议的链接。

【问题讨论】:

    标签: screen-scraping semantics web-crawler


    【解决方案1】:

    该领域被称为“自动包装器提取”,是一个活跃的研究领域,但我还没有看到好的开源工具包。一家名为 lixto 的公司制作了一款您可能感兴趣的商业工具。我很想看到一个解决这个问题的开源项目。

    【讨论】:

      猜你喜欢
      • 2011-08-08
      • 1970-01-01
      • 2015-03-15
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2023-03-09
      • 1970-01-01
      相关资源
      最近更新 更多