【发布时间】:2020-10-10 17:17:33
【问题描述】:
我正在尝试将网络抓取作为我使用 python 的第一个项目(对编程来说是全新的),我几乎完成了,但是网页上的一些值丢失了,所以我想用一些东西替换那个缺失的值比如“0”或“未找到”,其实我只是想从数据中制作一个 csv 文件,而不是真正进行分析。
我正在抓取的网页是:https://www.lamudi.com.mx/nuevo-leon/departamento/for-rent/?page=1
我有一个循环,它收集页面的所有链接,然后转到每个链接以抓取数据并将其保存在列表中,但是我的某些列表的元素比其他列表少。所以我只想让我的程序识别何时是缺失值,并将“0”或“未找到”附加到我的“尺寸”列表中。
用于收集页面上的链接:
tags = soup('a',{'class':'js-listing-link'})
for tag in tags:
link = tag.get('href')
if link not in links:
links.append(link)
print("Number of Links:", len(links))
对于收集每个部门的大小:
for link in links:
size = soup('span',{'class':'Overview-attribute icon-livingsize-v4'})
for mysize in size:
mysize = mysize.get_text().strip()
sizes.append(mysize)
print("Number of Sizes:", len(sizes))
【问题讨论】:
标签: python html web-scraping beautifulsoup missing-data