【问题标题】:How to scrape from Javascript-rendered index where links are in onclick?如何从onclick中链接的Javascript渲染索引中抓取?
【发布时间】:2020-04-18 13:44:21
【问题描述】:

Apify,我想为以下索引页面上的内容写一个刮板-https://www.ampereanalysis.com/insights

该页面似乎提出了两个挑战:

  1. 看起来内容链接本身是由 Javascript 呈现的

  2. 文章链接不在标准href 锚点中。这是一个实际的例子......

    <div class="report-click" style="cursor:pointer;" onclick="window.location = '/insight/quibi-bets-on-daily-shows'">
            <h6 class="report-title pt-2">Quibi...
    

如何在 Apify 中完成此操作?

【问题讨论】:

    标签: javascript apify


    【解决方案1】:

    如果您使用的是基于浏览器的抓取工具并且内容是动态加载的,您可以等待特定条件或选择器出现,然后解析来自 onclick 属性的路径并将它们与网站主机名合并以重新构建完整的内容网址。

    例子:

    document.querySelectorAll('.report-click').getAttribute('onclick').split('= ')[1]
    

    Puppeteer 中等待选择器的文档:

    https://pptr.dev/#?product=Puppeteer&version=v3.0.0&show=api-pagewaitforselectorselector-options

    【讨论】:

      猜你喜欢
      • 2020-10-14
      • 2015-09-03
      • 2019-04-19
      • 1970-01-01
      • 2012-12-11
      • 1970-01-01
      • 2016-01-28
      • 2017-09-07
      • 1970-01-01
      相关资源
      最近更新 更多