【发布时间】:2011-09-16 14:05:36
【问题描述】:
我正在尝试编写一个 python 脚本来修改我正在解析的文件中
<script>
<!--
...
-->
</script>
问题是当我尝试类似scriptNode.text = '<!-- ... lxml 之类的东西时,当我将 html 写回文件时,它会将尖括号修改为它们的 html 表示形式(& lt; 和 & gt;)。我尝试在字符串 ('\
查看大多数现代网站,似乎不需要那些评论标签。我可以删除它们,但许多脚本也在其中使用了一些 html,如果这些脚本也被修改为它们的 HTML 表示,那就是个问题。
我很惊讶 lxml 正在修改这些数据,最后我听说 HTML 解析器旨在避免修改/解释
我可以使用设置/命令来防止这种情况发生吗?
谢谢
【问题讨论】:
-
您不应该将 HTML 注释放在脚本标签内,这可能是您问题的根源。
-
@mikerobi:这不是主要问题,我还提到这会影响脚本中的其他变量,例如
var somearg = '&lt;h3&gt;test&lt;/h3&gt;'变为var somearg = '&lt;h3&gt;test&lt;/h3&gt;'
标签: python html-parsing lxml