【发布时间】:2013-09-08 20:30:22
【问题描述】:
我正在尝试制作一个网络浏览器,例如,从 Reuters.com 抓取新闻文章。我想得到标题和日期。我知道我最终只需要从每个地址中提取源代码,然后使用 JSoup 之类的东西解析 HTML。
我的问题是:我如何确保我对 Reuters.com 上的每篇新闻文章都执行此操作?我怎么知道我已经访问了所有 reuters.com 地址?是否有任何 API 可以帮助我解决这个问题?
【问题讨论】:
-
简短的回答是你一直在抓取,直到你发现的新 URL 的数量(与旧的数量相比)趋于零。除非他们在其 URL 中使用简单的索引文章代码,否则您无法确定 reuters.com 托管了多少文章。不幸的是,许多报纸网站使用复杂的 URI 方案,而且很少简洁或优雅。
标签: html web screen-scraping jsoup scraper