【发布时间】:2010-08-04 13:13:02
【问题描述】:
我想获取站点链接到的所有 URL(在同一个域上),而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接?
如果有人能提出更好的解决方案,我正在使用它的一些背景知识:我正在尝试构建一个 robots.txt 文件,该文件排除所有以 p[4-9] 结尾的文件。 html 但 robots.txt 不支持正则表达式。所以我试图获取所有链接,然后对它们运行正则表达式,然后将结果放入 robots.txt 中。有什么想法吗?
【问题讨论】:
-
如何在不获取内容的情况下获取链接?将
nofollow添加到链接有帮助吗?此处示例:seoconsultants.com/html/links/nofollow -
我知道我需要浏览内容,但我不想在浏览完后保存它。不幸的是,我无法添加 nofollow,因为该网站的大部分都在使用我无法触摸的第 3 方应用程序。