【发布时间】:2018-08-17 16:44:55
【问题描述】:
我使用 PHP 导入页眉和页脚,在其中我关闭头部、启动和关闭正文以及关闭 html。像这样:
<html>
<head>
<?php include ('Header.php');?>
CODE
<?php include ('Footer.php');?>
Beautiful soup 试图通过插入标签来修复我的“破损”标签来解决此问题。
<html>
<head>
<?php include ('Header.php');?>
</head><body> <-------------------------
CODE
<?php include ('Footer.php');?>
</body></html> <-------------------------
我知道 Beautiful Soup 正在按预期工作,但我怎样才能删除添加的标签,或者让 Beautiful Soup 不添加它们。我已经尝试过 lxml 解析器,但它做了同样的事情。谢谢。
【问题讨论】:
-
我认为理想的情况是在同一范围内打开和关闭标签。即使是为了更好的可读性和未来的调试
-
好吧,我关闭头部并在 Header PHP 中启动正文。然后我关闭页脚 PHP 中的正文和 html。我必须创建两个单独的 Header PHPs 并关闭头部并打开两者之间的主体。
-
找不到办法,所以我采纳了 Marcos 的建议,将所有的 HTML 标签都放在了 html 中。我必须创建一个额外的 PHP 包含,但没关系。
标签: php python html parsing beautifulsoup