【问题标题】:BeautifulSoup to get first value using string/textBeautifulSoup 使用字符串/文本获取第一个值
【发布时间】:2016-07-28 13:25:55
【问题描述】:

Beautifulsoup 对于在 python 中解析 html 很方便,但我遇到了问题,就是使用干净的代码直接使用 stringtext 获取值

from bs4 import BeautifulSoup
tr ="""    
<table>
    <tr><td>text1</td></tr>
    <tr><td>text2<div>abc</div></td></tr>
</table>
"""
table = BeautifulSoup(tr,"html.parser")
for row in table.findAll("tr"):
    td = row.findAll("td")
    print td[0].text
    print td[0].string

结果:

text1
text1
text2abc
None

我怎样才能得到结果

text1
text2

我想跳过多余的内部标签

beautifulsoup4-4.5.0python 2.7 一起使用

【问题讨论】:

  • td[0].contents[0] 应该给你你所追求的。

标签: python beautifulsoup html-parsing


【解决方案1】:

您可以通过设置textrecursive 参数来简单地使用.find() 函数。

for row in table.findAll("tr"):
    td1 = row.td.find(text=True, recursive=False)
    print str(td1)

你会得到你的输出:

text1
text2

无论div 标签的位置如何,这都会起作用。请参阅下面的示例。

>>> tr ="""    
<table>
    <tr><td>text1</td></tr>
    <tr><td>text2<div>abc</div></td></tr>
    <tr><td><div>abc</div>text3</td></tr>
</table>
"""
>>> table = BeautifulSoup(tr,"html.parser")
>>> for row in table.findAll("tr"):
        td1 = row.td.find(text=True, recursive=False)
        print str(td1)


text1
text2
text3

【讨论】:

  • 这也很好,recursive=False 在其他情况下对我非常有用。
【解决方案2】:

你可以试试这个:

for row in table.findAll("tr"):
    td = row.findAll("td")
    t = td[0]
    print t.contents[0]

但这只有在你一直在寻找 div 标签之前的文本时才有效

【讨论】:

  • 非常适合我的情况。
猜你喜欢
  • 2014-09-15
  • 2014-08-18
  • 2016-03-26
  • 2014-09-01
  • 1970-01-01
  • 2017-09-27
  • 2022-11-11
  • 2010-12-30
  • 1970-01-01
相关资源
最近更新 更多