【发布时间】:2015-10-19 14:44:16
【问题描述】:
有什么办法可以刮到第一页以外的地方:
https://www.sportstats.ca/display-results.xhtml?raceid=23666
我过去曾尝试过 Selenium,并取得了不同程度的成功。我发现它很重,有时它不起作用,有时它挂起。如果可能的话,我宁愿避免它,只使用 urllib.request 并使用 headers/cookies 来查找我正在寻找的数据。
这些是障碍:
1) 当您转到另一个页面时,URL 不会改变。
2)跳转到下一页的链接(比如)是js什么的,不好处理:
<li><a id="mainForm:j_idt341" href="#" class="ui-commandlink ui-widget fa fa-angle-right" onclick="PrimeFaces.ab({s:"mainForm:j_idt341",p:"mainForm",u:"mainForm:result_table mainForm:pageNav mainForm:eventAthleteDetailsDialog",onco:function(xhr,status,args){hideDetails('athlete-popup');showDetails('event-popup');scrollToTopOfElement('mainForm\\:result_table');;}});return false;"></a>
谁能指出我正确的方向来浏览这个并刮掉每一页。
【问题讨论】:
-
你为什么删除了这个问题?我研究了大约 20 分钟,终于找到了解决方案。请取消删除:stackoverflow.com/questions/33427870/….
标签: python web-scraping urllib