如何收集没有内容的网站上的所有链接？

【问题标题】：How can I gather all links on a site without content?如何收集没有内容的网站上的所有链接？
【发布时间】：2010-08-04 13:13:02
【问题描述】：

我想获取站点链接到的所有 URL（在同一个域上），而无需使用 wget 之类的东西下载所有内容。有没有办法告诉 wget 只列出它会下载的链接？

如果有人能提出更好的解决方案，我正在使用它的一些背景知识：我正在尝试构建一个 robots.txt 文件，该文件排除所有以 p[4-9] 结尾的文件。 html 但 robots.txt 不支持正则表达式。所以我试图获取所有链接，然后对它们运行正则表达式，然后将结果放入 robots.txt 中。有什么想法吗？

【问题讨论】：

如何在不获取内容的情况下获取链接？将nofollow 添加到链接有帮助吗？此处示例：seoconsultants.com/html/links/nofollow
我知道我需要浏览内容，但我不想在浏览完后保存它。不幸的是，我无法添加 nofollow，因为该网站的大部分都在使用我无法触摸的第 3 方应用程序。

标签： web-crawler robots.txt

【解决方案1】：

我的建议：将 wget 和 gawk 组合在一个（非常）小的 shell 脚本中。

维基百科上对 AWK 有很好的概述：http://en.wikipedia.org/wiki/AWK

【讨论】：

猜你喜欢

2018-05-06
1970-01-01
2014-10-21
2016-03-05
2010-11-29
2015-05-07
1970-01-01
1970-01-01
2016-09-28

相关资源

下载 2021-06-06
下载 2022-12-27
下载 2022-12-03

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode