【发布时间】:2014-10-20 10:43:24
【问题描述】:
我有一个 html 文件,其中 div 标签中有许多不同的文本结构。我唯一想要的是在这些标签中获取文本,但没有标签、换行符等。
例如这个html div:
<div class="textNahlad">
<i>Informácie pre záujemcu:</i>
<br>
Výberový pohovor je potrebné vopred dojednať telefonicky
<br>
</div>
但也可以是:
<div class="textNahlad">
<b>Informácie pre záujemcu:</b>
<br>
<br>
<br>
<i>Výberový pohovor je potrebné vopred dojednať telefonicky</i>
<br>
</div>
所以结果是:Informácie pre záujemcu: Výberový pohovor je potrebné vopred dojednať telefonicky
我很好奇 Python/BS4 中是否有一个函数可以只返回没有标签和换行符和其他混乱的文本。
find.('div',class_="textNahlad") 不起作用
编辑:我尝试使用 .contents 来执行此操作,并且对于每个内容检查,无论是文本还是标记,如果标记,则获取文本,但它无法正常工作。
【问题讨论】:
标签: python html beautifulsoup