【发布时间】:2015-04-07 22:45:22
【问题描述】:
我正试图从一个糟糕透顶的网站中获取一些文本。 这是我被难住的部分:
<tr><td valign="top">
<br>
<b>AGFA ACCUSET, <i>1994</i></b> <font color=grey>(46965)</font><br>
<br>
<b>Equipements : </b><br>AGFA 9800<br>
WITH RIP VIPER N°2<br>
FILM PROCESSOR GLUNZ AND JENSEN ML35 n°26498<br>
(LAIZE 450/600mm)<br>
Spectraset 2200<br>
<b>Availability : </b>IMMEDIATE<br></td><tr>
我需要的是里面的所有文字,所以
爱克发 ACCUSET,1994 年 (46965)
设备:AGFA 9800
与 RIP VIPER N°2
胶片处理器 GLUNZ 和 JENSEN ML35 n°26498
(莱泽450/600mm)
光谱集 2200
可用性:立即
如您所见,有些文本在<b>-tags 内,有些在<br>-tags 的前面。如果我使用soup.getText(),我会得到标签之外的文本,但我也会得到很多我不想要的其他文本,所以这真的不起作用。
编辑:This 是相关网站的链接。
EDIT2:原来我使用了错误的解析器。有关详细信息,请参阅下文。
【问题讨论】:
标签: python html python-3.x beautifulsoup html-parsing