【发布时间】:2013-05-25 23:39:58
【问题描述】:
我尝试从以下 HTML 中提取“这是我的文本”:
<html>
<body>
<table>
<td class="MYCLASS">
<!-- a comment -->
<a hef="xy">Text</a>
<p>something</p>
THIS IS MY TEXT
<p>something else</p>
</br>
</td>
</table>
</body>
</html>
我是这样尝试的:
soup = BeautifulSoup(html)
for hit in soup.findAll(attrs={'class' : 'MYCLASS'}):
print hit.text
但我得到了所有嵌套标签之间的所有文本以及评论。
谁能帮我把“这是我的文字”从这里弄出来?
【问题讨论】:
-
我也在寻找这个,以便获得我想在其他地方使用的帖子字符串。我发现this 很简单:如果汤是一次性的,可以使用
soup.html.unwrap()和soup.body.unwrap()删除标签,这样print(soup)将提供除这些标签之外的所有内容。
标签: python beautifulsoup