【问题标题】:Is it easier to scrape the AMP versions of webpages?抓取 AMP 版本的网页是否更容易?
【发布时间】:2019-04-08 00:47:08
【问题描述】:

我正在开发一个汇总报纸文章的网络抓取工具。我知道 AMP 协议要求使用精简版的 Javascript,而且我也知道 Javascript(部分)使网站管理员能够检测/防止抓取。所以从逻辑上讲,我认为抓取 AMP 网站会更容易。然而,另一方面,如果这是真的,我认为 StackOverflow 会在它之上,但我还没有找到一个线程来重申我的推论。我是正确的还是我忽略了什么?

【问题讨论】:

    标签: web-scraping beautifulsoup web-crawler amp-html web-mining


    【解决方案1】:

    我会说 AMP 页面肯定更容易抓取,因为实际上没有自定义 JS 代码。许多网站使用 JS 或 AJAX 插入内容。 AMP 限制了您可以使用的库数量,因此与常规网站相比,它们的数量更少。

    此外,如果你想抓取用 JavaScript 编写的内容,你应该可以使用 Selenium。如果没有,PHP 是必经之路(恕我直言)或 Python 中的 BeautifulSoup。

    祝你刮得愉快!

    【讨论】:

      猜你喜欢
      • 2023-03-23
      • 2017-09-11
      • 2017-11-08
      • 2010-10-09
      • 1970-01-01
      • 2010-10-24
      相关资源
      最近更新 更多