【发布时间】:2019-01-26 14:36:00
【问题描述】:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
<page number="1" position="absolute" top="0" left="0" height="1188" width="918">
<text top="301" left="136" width="223" height="17" font="4"><b>– Jul-18 ABC </b></text>
<text top="495" left="136" width="258" height="17" font="4"><b>– Aug-16</b> <b>XYZ </b></text>
</page>
Beautiful Soup 使用 xml/lxml/lxml-xml 解析器无法正确解析 second <text> 元素。它删除了Aug-16 和XYZ 之间的空格。它将其解析为
<text font="4" height="17" left="136" top="495" width="258"><b>– Aug-16</b> <b>XYZ </b></text>
这是不正确的。我也尝试过使用from_encoding="utf-8" 选项制作汤。没有一个有效。
【问题讨论】:
-
能否再添加一些代码 sn-p,如何获取文本?喜欢使用 .text 或 get_text() 方法
-
在使用
soup.find_all('text')选择文本元素后,我在文本元素上使用 get_text()
标签: python xml beautifulsoup xml-parsing