【问题标题】:How can I get all the links on a site without using the html code?如何在不使用 html 代码的情况下获取网站上的所有链接?
【发布时间】:2020-12-18 06:29:59
【问题描述】:

使用 python 3。我一直在尝试找到一种方法来获取动态页面上的链接,但我只在 href 中获取内容,而我需要的链接不存在。

例如,试图从this 页面获取指向特定锦标赛的链接,但它们没有出现在页面源中。这是我什至可以用 BeautifulSoup 或 Selenium 做的事情吗?

谢谢!

【问题讨论】:

标签: python selenium web-scraping beautifulsoup


【解决方案1】:

转到页面并查看:

<section class="page-section">
<div class="page-section__inner">
<table class="table">
<tbody>
<tr class="whatson-table__tournament>"
...

您自己构建链接所需的一切。
你不会找到完整的 URL,因为他们使用 JS 链接构建器或服务器端控制器。

【讨论】:

    【解决方案2】:

    我查看了那个页面,链接是href。但是,链接还有其他工作方式,可以使用 javascript 创建链接。我在 stackoverflow 上发现了这个,只是为了表明获取所有“链接”可能很困难:

    Javascript: Setting location.href versus location

    另外,请参阅:https://www.w3schools.com/js/js_window_location.asp

    【讨论】:

      【解决方案3】:

      尝试使用参数化 xpath 例如为您的表 //tbody/tr[1]/td[1]/a[1] 并取而代之 tr[1] 使用 tr["i"] 其中 i 是循环中的迭代器。首先,您需要获取行数,例如 //tbody/tr。这将帮助您获得锦标赛链接。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2023-03-03
        相关资源
        最近更新 更多