【发布时间】:2020-09-07 05:01:54
【问题描述】:
我正在尝试编写 python 代码来从网页中提取链接。按照逻辑,我正在寻找
对于序列<a href="">. 代码从普通锚标记中提取链接地址,例如 -<a href="https://www.google.com",但我看到还有其他指定超链接的方法
如下 -
<a href="/news/">News</a>
<a href="/docs/">Documentation</a>
<a href="/downloads/">Downloads</a>
<a href="/support/">Support</a>
点击“/news/”时,地址解析为“https://www.reviewboard.org/news/”。
这是如何发生的,这些信息存储在哪里?
因为 '/news/' 本身没有用,除非转换成完整的字符串
https://www.reviewboard.org/news/.
谢谢
【问题讨论】:
-
不完全是。它使用给定标签中的现有属性,而我需要将 href 字符串映射到其不存在的完整链接地址。