如何在不使用 html 代码的情况下获取网站上的所有链接？答案

【问题标题】：How can I get all the links on a site without using the html code?如何在不使用 html 代码的情况下获取网站上的所有链接？
【发布时间】：2020-12-18 06:29:59
【问题描述】：

使用 python 3。我一直在尝试找到一种方法来获取动态页面上的链接，但我只在 href 中获取内容，而我需要的链接不存在。

例如，试图从this 页面获取指向特定锦标赛的链接，但它们没有出现在页面源中。这是我什至可以用 BeautifulSoup 或 Selenium 做的事情吗？

谢谢！

【问题讨论】：

【解决方案1】：

转到页面并查看：

<section class="page-section">
<div class="page-section__inner">
<table class="table">
<tbody>
<tr class="whatson-table__tournament>"
...

您自己构建链接所需的一切。
你不会找到完整的 URL，因为他们使用 JS 链接构建器或服务器端控制器。

【讨论】：

【解决方案2】：

我查看了那个页面，链接是href。但是，链接还有其他工作方式，可以使用 javascript 创建链接。我在 stackoverflow 上发现了这个，只是为了表明获取所有“链接”可能很困难：

【讨论】：

【解决方案3】：

尝试使用参数化 xpath 例如为您的表 //tbody/tr[1]/td[1]/a[1] 并取而代之 tr[1] 使用 tr["i"] 其中 i 是循环中的迭代器。首先，您需要获取行数，例如 //tbody/tr。这将帮助您获得锦标赛链接。

【讨论】：