【发布时间】:2013-01-12 02:00:31
【问题描述】:
我正在用 Python 开发一个网页抓取工具,我需要熟悉某些网站上各种 HTML 标签的功能。不幸的是,Chrome、Firefox 和 Safari 提供的“查看源代码”不能输出格式非常好的 HTML 源代码——它往往会在同一行放置大量标签。浏览器是否提供任何可以清理一些东西的插件,或者我是否需要在 Python 中获取/开发某种工具,将脏 HTML 作为输入并输出格式清晰的 HTML?
【问题讨论】:
-
^^ 源代码不同,检查元素不同 f12
标签: google-chrome firefox web-applications browser safari