【发布时间】:2021-07-02 18:24:41
【问题描述】:
您好,我希望能够为该网站抓取多个页面 有人可以帮助我如何抓取所有页面,我只能从一页获取信息,但我只能从一页获取信息
headers = ({'User-Agent':
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36'})
for i in range(2000):
Centris ='https://www.centris.ca/en/commercial-units~for-rent~montreal-ville-marie/26349148?view=Summary'.format(i)
r = get(Centris, headers=headers)
soup = bs(r.text, 'html.parser')
results = soup.find_all('div', attrs={'id':'divMainResult'})
data = []
for result in results:
titre = result.find('span', attrs={'data-id': 'PageTitle'})
titre = [str(titre.string).strip() for titre in titre]
superficie = result.find('div', attrs={'class': 'carac-value'}, string=re.compile('sqft'))
superficie = [str(superficie.string).strip() for superficie in superficie]
emplacement = result.find_all('h2', attrs={'class': 'pt-1'})
emplacement = [str(emplacement.string).strip() for emplacement in emplacement]
prix = result.find_all('span', attrs={'class':'text-nowrap'})
prix = [(prix.text).strip('\w.') for prix in prix]
description = result.find_all('div', attrs={'itemprop': 'description'})
description = [str(description.string).strip() for description in description]
lien = result.find_all('a', attrs={'class': 'dropdown-item js-copy-clipboard'})
【问题讨论】:
-
您试图从中获取信息的 URL 是什么?
https://www.centris.ca/en/commercial-units~for-rent~montreal-ville-marie/26349148?view=Summary只是一个属性 -
您好,感谢您的快速回复,基本上我需要此页面上的信息,但需要所有其他属性。 centris.ca/en/commercial-units~for-rent~,
-
点击这个 URL 会出现 404 错误页面
标签: python web web-scraping