【发布时间】:2019-04-10 07:24:42
【问题描述】:
在 Beautifulsoup 中,当您解析 HTML 时,它会尝试为您完成 HTML,例如:
HTML = """<!doctype html>
<html>
<body>
<img src='test'/>
<p
"""
from bs4 import BeautifulSoup
print BeautifulSoup(HTML, "html.parser")
输出将是:
<!DOCTYPE doctype html>
<html>
<body>
<img src="test"/>
<p
</body></html>
有没有一种方法可以在不编辑任何标签或 HTML 数据(标签、<、> 等)的情况下按原样解析 HTML ,或者是否有替代方法“按原样”解析 HTML 的方法?
【问题讨论】:
-
“它会尝试为你完成 HTML”——它只是遵循 HTML 规范中定义的 HTML 解析规则。
标签: html python-2.7 parsing beautifulsoup