【发布时间】:2020-01-27 13:24:27
【问题描述】:
我正在尝试在 BeautifulSoup 中抓取以下类型的 HTML。
<div …. > <div…..>
<div class=“class1">Jill</div> <div class=“class2">50</div>
<div class=“class1">Jane</div>
<div class=“class1">Joe</div> <div class=“class2">12</div>
</div></div>
不是每个人都有第二个项目要刮,所以像 soup.find_all("div", attrs={"class": "class2"}) 之类的东西不能正常工作(它会返回 50 和 12 但会返回 12与合适的人没有联系)
想要的结果(变量):
Jill 50
Jane
Joe 12
【问题讨论】:
-
是的 find_all() 将返回所有具有类名
class2的元素。如果您使用 find() 它将返回第一个匹配项。但是不清楚您的预期输出是什么?我想您需要claas2 值 wrt 类 1 的用户名? -
我已经用预期的结果更新了问题。
标签: html python-3.x web-scraping beautifulsoup