【问题标题】:How can I gather all links on a site without content?如何收集没有内容的网站上的所有链接?
【发布时间】:2010-08-04 13:13:02
【问题描述】:

我想获取站点链接到的所有 URL(在同一个域上),而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接?

如果有人能提出更好的解决方案,我正在使用它的一些背景知识:我正在尝试构建一个 robots.txt 文件,该文件排除所有以 p[4-9] 结尾的文件。 html 但 robots.txt 不支持正则表达式。所以我试图获取所有链接,然后对它们运行正则表达式,然后将结果放入 robots.txt 中。有什么想法吗?

【问题讨论】:

  • 如何在不获取内容的情况下获取链接?将nofollow 添加到链接有帮助吗?此处示例:seoconsultants.com/html/links/nofollow
  • 我知道我需要浏览内容,但我不想在浏览完后保存它。不幸的是,我无法添加 nofollow,因为该网站的大部分都在使用我无法触摸的第 3 方应用程序。

标签: web-crawler robots.txt


【解决方案1】:

我的建议:将 wget 和 gawk 组合在一个(非常)小的 shell 脚本中。

维基百科上对 AWK 有很好的概述:http://en.wikipedia.org/wiki/AWK

【讨论】:

    猜你喜欢
    • 2018-05-06
    • 1970-01-01
    • 2014-10-21
    • 2016-03-05
    • 2010-11-29
    • 2015-05-07
    • 1970-01-01
    • 1970-01-01
    • 2016-09-28
    相关资源
    最近更新 更多