【发布时间】:2015-02-25 13:01:41
【问题描述】:
我需要一些帮助来查找 XML 文档中某些标记的文本偏移量。我有一个数据集,格式如下所示,其中 ROOT 元素包含多个 RECORD,尽管每个 RECORD 仅包含一个 TEXT 元素。在文本中可能存在几个 TAG 元素用作某些文本的注释。我需要将这些注释转换为另一种格式,需要使用 Python 对标签进行开始和结束偏移。
<ROOT>
<RECORD ID="123">
<TEXT>
This is an example text written at <TAG TYPE="DATE">December 29th</TAG> to illustrate the problem.
</TEXT>
</RECORD>
</ROOT>
基本上,我想将上述格式转换为以下格式:
<ROOT>
<RECORD ID="123">
<TEXT>
This is an example text written at December 29th to illustrate the problem.
</TEXT>
<TAG TYPE="DATE" BEGIN=36 END=49/>
</RECORD>
</ROOT>
我尝试过使用 BeautifulSoup,但找不到提取标签偏移量的方法。有什么想法吗?
感谢您的帮助!
/雅各布
【问题讨论】:
-
为什么这被否决了?
标签: python xml annotations beautifulsoup