在 Python 中使用 Beautifulsoup 进行网页抓取

【问题标题】：Webscraping Using Beautifulsoup in Python在 Python 中使用 Beautifulsoup 进行网页抓取
【发布时间】：2018-09-30 14:01:28
【问题描述】：

我是 Python 中的 Beautifulsoup 包的新手，在使用 .findAll() 函数时得到了一些意想不到的结果。我需要从该网页的浅蓝色突出显示部分立即提取 /File/ 右侧的字符串：

这是我的 Beautifulsoup/Python 代码：

前两行代码工作正常，但 pdf1 为空。谁能解释一下为什么 .findAll() 函数没有找到这个标签（我假设我犯了语法错误，只是不确定在哪里）？

【问题讨论】：

【解决方案1】：

我猜您的屏幕截图显示了当前 HTML 的浏览器输出？你检查过page.text的内容是否相同吗？这可能会揭示 BS 无法处理的任何客户端修改，如 ngRepeat 所示。

【讨论】：

是的，你没看错：page.text 的内容和浏览器输出的内容不一样。您能否向我指出任何网络资源以详细了解为什么会发生这种情况？
这是一篇解释不同方法的文章：Client-side vs. server-side rendering。提示我的是你的类的 ng 前缀，这表明使用了 AngularJS，它在浏览器中使用 JavaScript 来呈现 HTML 的某些部分。您需要执行 JavaScript 才能为 BS 呈现相同的 HTML。