【发布时间】:2009-11-24 02:30:11
【问题描述】:
我正在尝试寻找收集 URL 的最佳方法,我可以创建自己的小型爬虫,但我的服务器需要数十年才能爬取整个 Internet,而且所需的带宽会很大。另一个想法是使用 Google 的 Search API 或 Yahoo 的 Search API,但这并不是一个很好的解决方案,因为它需要在我得到结果之前执行搜索。
其他想法包括询问 DNS 服务器和请求 URL 列表,但 DNS 服务器可以限制/限制我的请求,甚至一起禁止我。目前我对查询 DNS 服务器的知识非常有限,所以我不知道这是否是最好的方法。
我只想要一个庞大的 URL 列表,但我想在将来构建此列表时不会碰壁。有什么想法吗?
我开始这个项目是为了学习 Python,但这与问题无关。
【问题讨论】:
-
很有趣的问题——你想要大量的免费数据。您预计未来会有什么样的“砖墙”?
-
另外,您应该清楚 URL 的含义。例如,一个 URL 是stackoverflow.com/questions/1787414/…。我预计您或其他任何人都不会在 Web 上发现 99% 的现有 URL。您是说域名吗?
-
@S.Lott - 砖墙指的是无法真正让我获得世界上所有可用 URL 的方法
-
@Dathan 很好,我不想要每个页面,我想要每个站点,所以“域名”更合适
标签: url capture web-crawler google-search-api