【发布时间】:2011-04-24 05:48:33
【问题描述】:
我有一个项目,用户提交许多指向外部网站的链接,我需要解析这些提交链接的 HTML 并从页面中提取基本信息,就像 Digg 和 Facebook 在提交链接时所做的那样。
我要找回:
- 主标题或标题(可以在标题中,
h1、h2、p等...) - 介绍或描述文本(可以是
div、p等...) - 主图
我的主要问题是,这里似乎有太多可供探索的选择,而且我有点困惑,至少坐下来。到目前为止,我看到的许多解决方案似乎都不够充分或过度矫枉过正。
【问题讨论】:
-
tl;dr: 使用带有 xpath 的 html 解析库。
标签: html parsing extraction information-extraction