【发布时间】:2013-05-09 09:13:51
【问题描述】:
在识别出原始文档中的文本后,我需要处理 HTML 文档中的某些文本。假设我有这个 HTML 代码
<div id="identifier">
<a href="link" id="linkid">
</a>
</div>
我想删除<a> 标签中的id 属性。我可以使用 BeautifulSoup 识别特定标签,但因为它改变了原始文档的格式,我也无法搜索/替换字符串。我不想只写 BeautifulSoup 的输出,而是想在 original 文档中识别 <a href="link" id="linkid"> 标记并仅替换为 <a href="link">。知道如何进行吗?
回答提出的几个问题:
这是一个庞大的现有代码库,需要进行一些更新,因此它不仅仅是一项单一的搜索/替换工作。
原始格式很重要,因为组织遵循一定的编码标准来格式化代码,我想保留这些标准。此外,为了完整起见,BS 引入了额外的标签,例如 for 等。
【问题讨论】:
-
你能详细解释一下为什么不能只搜索/替换字符串吗?
标签: python beautifulsoup