如何获取域的 URL 列表答案

【问题标题】：How to get list of URLs for a domain如何获取域的 URL 列表
【发布时间】：2010-11-06 11:02:08
【问题描述】：

我想为一个域生成一个 URL 列表，但我宁愿通过自己不抓取该域来节省带宽。那么有没有办法使用现有的爬取数据呢？

我想到的一个解决方案是创建Yahoo site search，它可以让我以 TSV 格式下载前 1000 个结果。但是，要获得所有记录，我将不得不抓取搜索结果。 Google 也支持站点搜索，但不提供下载数据的简单方法。

您能想出一种更好的方法来处理大多数（如果不是全部）网站吗？

谢谢，理查德

【问题讨论】：

【解决方案1】：

一些网站管理员提供Sitemaps，它本质上是域中每个 URL 的 XML 列表。但是，除了抓取之外，没有通用的解决方案。如果您确实使用爬虫，请遵守 robots.txt。

【讨论】：

【解决方案2】：

您可以通过此在线工具免费下载多达 500 个 URL 的列表：

...工具抓取您的网站后，只需选择“文本列表”即可。

【讨论】：

【解决方案3】：

似乎没有 royal 方法来进行网络爬取，所以我将坚持我目前的方法...

我还发现大多数搜索引擎无论如何都只公开前 1000 个结果。

【讨论】：