【问题标题】:How to get list of URLs for a domain如何获取域的 URL 列表
【发布时间】:2010-11-06 11:02:08
【问题描述】:

我想为一个域生成一个 URL 列表,但我宁愿通过自己不抓取该域来节省带宽。那么有没有办法使用现有的爬取数据呢?

我想到的一个解决方案是创建Yahoo site search,它可以让我以 TSV 格式下载前 1000 个结果。但是,要获得所有记录,我将不得不抓取搜索结果。 Google 也支持站点搜索,但不提供下载数据的简单方法。

您能想出一种更好的方法来处理大多数(如果不是全部)网站吗?

谢谢, 理查德

【问题讨论】:

    标签: url dns screen-scraping web-crawler


    【解决方案1】:

    一些网站管理员提供Sitemaps,它本质上是域中每个 URL 的 XML 列表。但是,除了抓取之外,没有通用的解决方案。如果您确实使用爬虫,请遵守 robots.txt。

    【讨论】:

    • 不幸的是,我看过的大多数网站都没有使用它们。我希望利用另一个爬虫的结果,而不是自己再次爬取。
    • 我不同意至少有一个通用的解决方案,我解释说是使用来自搜索引擎的爬网结果。这是使用 site:foo.org 完成的。
    • Richard,搜索引擎不会索引每个域,他们的列表也不包括他们索引的域上的每个页面。这就是为什么 site:foo.org 不是通用解决方案的原因。
    【解决方案2】:

    您可以通过此在线工具免费下载多达 500 个 URL 的列表:

    XML Sitemap Generator

    ...工具抓取您的网站后,只需选择“文本列表”即可。

    【讨论】:

      【解决方案3】:

      似乎没有 royal 方法来进行网络爬取,所以我将坚持我目前的方法...

      我还发现大多数搜索引擎无论如何都只公开前 1000 个结果。

      【讨论】:

        猜你喜欢
        • 2019-10-19
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2016-11-01
        • 1970-01-01
        • 2010-10-08
        相关资源
        最近更新 更多