【发布时间】:2019-09-24 07:19:13
【问题描述】:
我正在尝试抓取一些网站以获取信息。我已将要抓取的页面保存为 .html 文件并使用sublime text 打开它,但有些部分无法以美化方式显示;尝试使用 beautifulsoup 时遇到同样的问题;见下图(我不能真正分享完整的代码,因为它会泄露私人信息)。
【问题讨论】:
-
能否请您提供一些代码
-
正是我宁愿不;它实际上是 facebook 公共页面的 html 代码...
-
beautifulsoup不需要美化代码即可工作。 -
@furas true 但我需要美化代码来检测我正在寻找的信息的关键......
-
在 Web 浏览器中打开页面,转到 DevTools (Chrome/Firefox),您可以看到格式良好的 HTML。我总是使用 DevTools 来检查 HTML 并获取抓取路径。 DevTool 甚至可以为所选元素提供 xpath 或 css 选择器。或者我可以使用 JavaScript
document.getElementByXXX来检查它。
标签: html web-scraping beautifulsoup