【发布时间】:2015-10-06 09:07:24
【问题描述】:
鉴于下面的 HTML 代码,我只想输出 h1 的文本,而不是“关于 ' 的详细信息”,它是 span 的文本(由 h1 封装)。
我当前的输出给出:
Details about New Men's Genuine Leather Bifold ID Credit Card Money Holder Wallet Black
我想要:
New Men's Genuine Leather Bifold ID Credit Card Money Holder Wallet Black
这是我正在使用的 HTML
<h1 class="it-ttl" itemprop="name" id="itemTitle"><span class="g-hdn">Details about </span>New Men's Genuine Leather Bifold ID Credit Card Money Holder Wallet Black</h1>
这是我当前的代码:
for line in soup.find_all('h1',attrs={'itemprop':'name'}):
print line.get_text()
注意:我不想只是截断字符串,因为我希望这段代码具有一些可重用性。 最好是一些代码可以裁剪出任何受跨度限制的文本。
【问题讨论】:
标签: python html regex beautifulsoup