【发布时间】:2010-11-06 11:02:08
【问题描述】:
我想为一个域生成一个 URL 列表,但我宁愿通过自己不抓取该域来节省带宽。那么有没有办法使用现有的爬取数据呢?
我想到的一个解决方案是创建Yahoo site search,它可以让我以 TSV 格式下载前 1000 个结果。但是,要获得所有记录,我将不得不抓取搜索结果。 Google 也支持站点搜索,但不提供下载数据的简单方法。
您能想出一种更好的方法来处理大多数(如果不是全部)网站吗?
谢谢, 理查德
【问题讨论】:
标签: url dns screen-scraping web-crawler