【发布时间】:2021-12-25 20:41:21
【问题描述】:
我正在整理一个网络爬虫进行练习和学习,但发现了一些问题。我最初的思考过程是……
- 在给定页面上,查找所有 href 属性。如果 href 值是有效链接,请转到此新链接并继续
- 如果 href 值是路径(例如“/patients/patient-portal”或“/services/financial-assistance”),我会将其附加到当前 URL 的末尾并再次继续.
出现了一个我没有意识到的问题。一些路径引用了网站上的其他资源。 (包括图片)。当前的 url 是“patients-visitors/advance-directives/”,而资源“services/family-medicine”实际上是指 columbiabasinhospital.org/services/family-medicine”。我设置它的方式会导致 URL 不正确( patient-visitors/advance-directives/services/family-medicine)。将鼠标悬停在资源上会显示完整链接。我想知道是否有办法使用 BeautifulSoup 检索它?谢谢!
【问题讨论】:
-
我会将其附加到我当前所在 URL 的末尾 - 为什么是当前 url,你应该添加基本 url -
columbiabasinhospital.org
标签: python beautifulsoup web-crawler