【发布时间】:2016-06-05 01:39:44
【问题描述】:
正在阅读“Web Scraping with Python”一书,它很不错,但有时(令人沮丧地)掩盖了读者需要玩弄的代码,而不显示输出或提及相关限制。
我花了 4 个小时试图找出原因:
fullText.findAll('a', text="bees")
返回一个关于以下标签的空字符串:
<a class="search">Why are the bees in my soup bees are bad</a>
当这本书似乎暗示它会计算“蜜蜂”出现在我的 bs4.BeautifulSoup 页面上的次数时。只有在阅读 Stack 帖子和摆弄代码 4 小时后,我才发现我必须在 text="" 中键入 完整的一段文本 才能获得所需的输出。那就是我不得不把它改成:
fullText.findAll('a', text="Why are the bees in my soup bees are bad")
.
.
.
.
无论如何,我只想问一个两部分的问题: 如果我使用以下命令输出了所有 标签:
fullText.findAll('strong')
- [不转换为字符串] 有没有办法使用 findAll 或其他函数成功搜索以查看蜜蜂是否作为标签内文本的一部分出现没有在标签内搜索全文
- findAll 是否存在 BeautifulSoup 或其他函数,它将从输出中去除标签定义,并且只显示标签内的全文
我很清楚第二个问题之前已经被问过。我尝试过的一切都没有真正奏效。如果您可以包含您的输出,那就太好了,这样我就知道我应该期待什么,并且可以在遇到问题时比较结果。
【问题讨论】:
标签: search beautifulsoup extract partial findall