【发布时间】:2015-08-17 21:28:30
【问题描述】:
我正在尝试获取可能是动态生成的 HTML 代码。我唯一想做的就是获取下一页的 html 代码。如果您单击按钮,当然一切都会完美无缺。但是,如果您检查此页面的 href 并将其复制粘贴到浏览器地址表单中并提交,您会得到如下文本:
{"paging":{"isLastPage":false},"pagination":{"firstUrl":"/sk/komponenty/aktivne-prvky/analogove-obvody/spustacie-obvody/c/cat-L3D_525255/showmore?q=*&filter_Buyable=1&filter_Category4=Sp%C3%BA%C5%A1%C5%A5acie+obvody&filter_Category3=Anal%C3%B3gov%C3%A9+obvody&useTechnicalView=true&pageSize=10&page=1","prevUrl":"/sk/komponenty/aktivne-prvky/analogove-obvody/spustacie-obvody/c/cat-L3D_525255/showmore?
当您尝试使用其标头执行请求时,也会发生同样的事情。
问题是,当您单击此处的下一页按钮时,我想获取您获得的页面的 HTML 代码:http://www.distrelec.sk/sk/komponenty/aktivne-prvky/analogove-obvody/spustacie-obvody/c/cat-L3D_525255
你知道如何获取 HTML 代码吗?
编辑:我试图找到一个调用下一页的 GET 并使用请求模块来模拟点击(带有所有请求标头),但我得到了相同的结果。没有 HTML。
【问题讨论】:
-
在您包含的 URL 中,下一页按钮链接到 this URL,这似乎是另一个 HTML 页面。无论如何,看起来您可以将
?pageSize=36&page=N附加到 URL,但将 N 替换为数字 1、2、3 等,直到没有更多结果为止。这样,您就不必直接弄乱下一页按钮。 -
我似乎也无法重现您的结果。 href 指的是 /sk/komponenty/aktivne-prvky/analogove-obvody/spustacie-obvody/c/cat-L3D_525255?pageSize=10&page=2。你的代码是什么样的?
标签: javascript python html web-scraping