【问题标题】:Retrieving a complete webpage including dynamically loaded links/images检索包含动态加载的链接/图像的完整网页
【发布时间】:2018-09-25 10:42:03
【问题描述】:

问题

下载动态加载链接/图像的网站的完整离线工作副本

研究

Stackoverflow 上有一些问题(例如[1][2][3])解决了这个问题,其中大多数问题的最佳答案使用wgethttrack,这两个问题都惨遭失败(请如果我错了,请纠正我)在动态加载链接的页面上或使用srcset 而不是src 用于img 标签-或通过JS加载的任何内容-。一个相当明显的解决方案是Selenium,但是,如果您曾经在生产中使用过 Selenium,您很快就会开始看到这样的决定引起的问题(资源繁重,使用全头驱动程序非常复杂,事实并非如此为此而建),话虽如此,there are people claiming to have been using it easily in production for years

预期的解决方案

一个脚本(最好在 python 中),它解析页面中的链接并单独加载它们。我似乎找不到任何现有的脚本可以做到这一点。如果您的解决方案是“所以实现您自己的”,那么首先提出这个问题是没有意义的,我正在寻求现有的实现。

示例

  1. Shopify.com
  2. 使用 Wix 构建的网站

【问题讨论】:

    标签: python selenium web-scraping wget httrack


    【解决方案1】:

    现在有Selenium 的无头版本和PhantomJS 等替代版本,它们都可以与小脚本一起使用来抓取任何动态加载的网站。

    我已经实现了一个通用的scraper here,并解释了更多关于主题here

    【讨论】:

    • 现在你可以使用 puppeteer,因为它甚至可以处理使用 javascript 运行
    • 链接失效。仅供参考,它是 scrape(和 scrapingscrapedscraper)而不是废料。 “废弃”意味着像垃圾一样扔掉东西:-(
    猜你喜欢
    • 2012-05-23
    • 1970-01-01
    • 2017-06-24
    • 2010-09-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多