【发布时间】:2021-06-24 15:35:03
【问题描述】:
我试图从这个页面上抓取家庭链接:
https://www.sreality.cz/en/search/to-rent/apartments?page=2
例如,对于第一套公寓,我想获得以下链接:
但是,该网站对 javascript 的依赖程度很高。通过使用 requests.get() 我只获得了一段无意义的 html 代码:
from requests import get
i = 2
url = f"https://www.sreality.cz/en/search/to-rent/apartments?page={i}"
response = get(url)
print(response.text)
-----------------------------
<!doctype html>
<html lang="{{ html.lang }}" ng-app="sreality" ng-controller="MainCtrl">
<head>
<meta charset="utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="viewport" content="width=device-width,initial-scale=1,maximum-scale=1.0,minimal-ui">
<!--- Nastaveni meta pres JS a ne pres Angular, aby byla nastavena default hodnota pro agenty co nezvladaji PhantomJS --->
<title ng:bind-template="{{metaSeo.title}}">Sreality.cz ⢠reality a nemovitosti z celé ÄR</title>
<meta name="description" content="NejvÄtšà nabÃdka nemovitostà v ÄR. NabÃzÃme byty, domy, novostavby, nebytové prostory, pozemky a dalšà reality k prodeji i pronájmu. Sreality.cz">
<meta property="og:title" content="Sreality.cz ⢠reality a nemovitosti z celé ÄR">
<meta property="og:type" content="website">
<meta property="og:image" content="https://www.sreality.cz/img/sreality-logo-og.png">
-----------------------------
ETC ...
因此,问题是,如何对此类网站进行一些简单的抓取活动?
提前感谢您的帮助。
【问题讨论】:
-
询问网站是否提供 API 来访问他们的信息。
标签: javascript python html web-scraping beautifulsoup