【发布时间】:2021-08-08 04:53:25
【问题描述】:
我正在尝试从这个网站上抓取数据。
import requests
pload = {
'__EVENTARGUMENT':'Page$4'
}
r = requests.post('https://ncte.gov.in/website/RecognizedInstitutionLists.aspx?stateid=S8cOijQRRVW35%2fajiqT1hQ%3d%3d&state=KARNATAKA®ionid=4',data=pload, verify=False)
print(r.text)
但上面的代码总是返回第一个网页的数据。即使我更改了有效负载中的页码,它也会返回第一页。如何通过更改请求正文获取下一页的数据?
【问题讨论】:
-
下一页依赖于javascript,您的发布请求在这里不起作用,只是请求发送此页面的静态html。您可以使用 selenium 轻松解决它。我可以帮助你用 scrapy 处理 selenium。
-
那么如何让它工作呢?使用python
-
请给我看一下 selenium 和 scrapy 的代码。
-
如果你喜欢这种方式,那么我必须解决。
-
发布请求也可以,如果您可以准确地发送表单数据。在这里你会看到formdata是如此的复杂。
标签: python python-3.x python-requests