【发布时间】:2021-05-22 03:35:42
【问题描述】:
我想从房地产网页中分别获取每个房产的卧室和浴室数量以及土地面积。但是,我发现它们的标签是相同的<strong>,也没有类和id。因此,当我编写以下代码时:
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'}
url = "https://www.realestate.co.nz/residential/sale/auckland?oad=true&pm=1"
response = requests.get(url, headers=headers)
content = BeautifulSoup(response.content, "lxml")
rooms = content.findAll('strong', class_=False, id=False)
for room in rooms:
print(room.text)
我得到以下信息:
Sign up
2
2
2
2
3
2
4
3
2.4ha
2
1
2
2
4
3
465m2
1
1
3
2
1
1
5
3
10.1ha
3
2
5
5
600m2
600m2
4
2
138m2
2
1
2
1
2
2
3
2
675m2
2
1
您可以看到我将它们全部放在一起,因为它们具有相同的标签。有人可以帮助我如何分别获得它们吗?谢谢!
【问题讨论】:
-
你能分享一点 HTML 吗?所有这些都可能在一个 div 中尝试定位。
标签: python web-scraping beautifulsoup