【问题标题】:Prevent Beautiful Soup from closing my tags防止 Beautiful Soup 关闭我的标签
【发布时间】:2018-08-17 16:44:55
【问题描述】:

我使用 PHP 导入页眉和页脚,在其中我关闭头部、启动和关闭正文以及关闭 html。像这样:

<html>
<head>
<?php include ('Header.php');?>
CODE
<?php include ('Footer.php');?>

Beautiful soup 试图通过插入标签来修复我的“破损”标签来解决此问题。

<html>
<head>
<?php include ('Header.php');?>
</head><body> <-------------------------
CODE
<?php include ('Footer.php');?>
</body></html>  <-------------------------

我知道 Beautiful Soup 正在按预期工作,但我怎样才能删除添加的标签,或者让 Beautiful Soup 不添加它们。我已经尝试过 lxml 解析器,但它做了同样的事情。谢谢。

【问题讨论】:

  • 我认为理想的情况是在同一范围内打开和关闭标签。即使是为了更好的可读性和未来的调试
  • 好吧,我关闭头部并在 Header PHP 中启动正文。然后我关闭页脚 PHP 中的正文和 html。我必须创建两个单独的 Header PHPs 并关闭头部并打开两者之间的主体。
  • 找不到办法,所以我采纳了 Marcos 的建议,将所有的 HTML 标签都放在了 html 中。我必须创建一个额外的 PHP 包含,但没关系。

标签: php python html parsing beautifulsoup


【解决方案1】:

当你调用 BeautifulSoup 时你选择什么解析器?

尝试使用 Python 默认解析器:

soup = BeautifulSoup(your_html, 'html.parser')

【讨论】:

    猜你喜欢
    • 2019-02-20
    • 2018-09-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-01-17
    • 1970-01-01
    相关资源
    最近更新 更多