【发布时间】:2013-03-08 16:51:36
【问题描述】:
我正在尝试使用 BeautifulSoup 解析一个 HTML 文件,该文件包含许多从 LexisNexis(法律数据库)批量下载的单个文档。
-
我的第一个任务是将 HTML 文件拆分为其组成文档。我认为这很容易,因为文档被
<DOC NUMBER=1>body of the 1st document</DOC>包围等等。 -
但是,这个
<DOC>标记是一个XML 标记,而不是一个HTML 标记(文件中的所有其他标记都是HTML)。因此,使用常规 HTML 解析器时,此标记在树中不可用。 -
如何在 bs4 中构建一个解析器来获取这个 XML 标记? 我附上 HTML 文件的相关部分:
<!-- Hide XML section from browser <DOC NUMBER=1> <DOCFULL> --> BODY <!-- Hide XML section from browser </DOCFULL> </DOC> -->
【问题讨论】:
标签: python xml parsing beautifulsoup