【问题标题】:Webscraping Using Beautifulsoup in Python在 Python 中使用 Beautifulsoup 进行网页抓取
【发布时间】:2018-09-30 14:01:28
【问题描述】:

我是 Python 中的 Beautifulsoup 包的新手,在使用 .findAll() 函数时得到了一些意想不到的结果。我需要从该网页的浅蓝色突出显示部分立即提取 /File/ 右侧的字符串:

这是我的 Beautifulsoup/Python 代码:

前两行代码工作正常,但 pdf1 为空。谁能解释一下为什么 .findAll() 函数没有找到这个标签(我假设我犯了语法错误,只是不确定在哪里)?

【问题讨论】:

    标签: python web web-scraping beautifulsoup


    【解决方案1】:

    我猜您的屏幕截图显示了当前 HTML 的浏览器输出?你检查过page.text的内容是否相同吗?这可能会揭示 BS 无法处理的任何客户端修改,如 ngRepeat 所示。

    【讨论】:

    • 是的,你没看错:page.text 的内容和浏览器输出的内容不一样。您能否向我指出任何网络资源以详细了解为什么会发生这种情况?
    • 这是一篇解释不同方法的文章:Client-side vs. server-side rendering。提示我的是你的类的 ng 前缀,这表明使用了 AngularJS,它在浏览器中使用 JavaScript 来呈现 HTML 的某些部分。您需要执行 JavaScript 才能为 BS 呈现相同的 HTML。
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-07-08
    • 2020-10-04
    • 2021-01-31
    • 1970-01-01
    • 1970-01-01
    • 2018-10-16
    相关资源
    最近更新 更多