【问题标题】:Get text outside known element beautifulsoup获取已知元素beautifulsoup之外的文本
【发布时间】:2014-10-26 14:01:55
【问题描述】:

我想抓取一个网页,但我根本不想使用正则表达式。我正在使用 beautifulsoup 来处理刮擦。我有这个来源:

<TD WIDTH="50%" VALIGN="TOP"><span class="sections">Date:</span>
13 August 2014
      <br>&nbsp;<br><span class="sections">Application Deadline:</span>
     <font color="maroon">
      28 August  2014</font>

      <font color="#990066">Application closed / under review</font>

<br>&nbsp;<br><span class="sections">Duty Station:&nbsp;</span>
Multiple duty stations
<br>
&nbsp;

从这个来源,我想抓取 2014 年 8 月 13 日

我可以通过它的类找到 span 元素:soup.findAll('span',{'class':'sections'} 获取第一个元素,并检查文本是否为“日期:”,但这只是给了我元素。我想要得到的文本就在它下面,我唯一能做的就是通过td 搜索,但这不是我想要的,因为一个td 中有很多元素和文本。

我知道我可以使用正则表达式来做到这一点,但我真的想用 beautifulsoup 来做到这一点。

提前致谢

【问题讨论】:

    标签: python python-2.7 html-parsing beautifulsoup


    【解决方案1】:

    找到了。

    一旦我得到元素&lt;span class="sections"&gt;Date:&lt;/span&gt; 我必须做element.nextSibling 比我想象的要容易。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-05-25
      • 2015-10-08
      • 2011-07-23
      • 1970-01-01
      • 2015-10-22
      • 1970-01-01
      • 2012-02-12
      • 2016-03-17
      相关资源
      最近更新 更多