【发布时间】:2011-06-20 11:59:21
【问题描述】:
我正在尝试抓取一个有瞬间 javascript 延迟的网站。
我目前正在使用 python 进行抓取。每当我“获取”页面时,javascript 延迟还没有完成,并且还没有完全加载新的 dom。
我要如何抓取这样的 pge?
【问题讨论】:
-
您能否发布您想要抓取的网址,或者最好是一个重现该行为的最小示例?
-
您是使用 urllib[2] 来获取页面,还是使用某些浏览器? dom 加载实际上是做什么的?
-
我为此目的构建了 SnapSearch。 snapsearch.io 专为 JS、HTML5 和 SPA 应用程序的 SEO 设计。
标签: javascript python screen-scraping web-scraping scraper