【发布时间】:2014-08-24 21:02:39
【问题描述】:
我正在尝试从一个网页中抓取一些数据。标签文本中有换行符和<br/> 标签。我只想获取标签开头的电话号码。你能给我一个建议如何只得到这个数字吗?
这是 HTML 代码:
<td>
+421 48/471 78 14
<br />
<em>(bowling)</em>
</td>
beautifulsoup 有没有办法在标签中获取文本,但只有那个文本,它没有被其他标签包围?第二件事:摆脱文本换行符和 html 换行符?
我用的是 BS4。
输出将是:'+421 48/471 78 14'
你有什么想法吗? 谢谢
【问题讨论】:
标签: python html beautifulsoup