【问题标题】:Scraping and non-API interaction抓取和非 API 交互
【发布时间】:2015-03-18 20:44:37
【问题描述】:

我正在考虑构建一个应用程序来检查各个商店的库存水平。一些商店没有公开此信息的 API。

我正在考虑为每个网站构建一个爬虫。

你认为这会奏效吗?我可以只构建一个脚本来检查所有站点吗?例如,这是来自一个站点的标记:

<div class = "stock status6">
  <b> In stock </b>
</div>

所以我的脚本需要解析这个来提取股票信息。

据我了解,这种技术的问题在于,如果网站更改了标记,那么我的抓取工具可能会停止工作。

当某个 API 不可用时,如何获得使用 API 的好处? Javascript 可以在这里提供帮助吗?

【问题讨论】:

    标签: api web-scraping


    【解决方案1】:

    我正在考虑为每个网站构建一个抓取工具。

    当您无权访问 API 时,这是您唯一的选择。

    你认为这会奏效吗?我可以只构建一个脚本来检查所有网站吗?

    抓取是解决此类问题的一种非常常见的方法。如何构建脚本在这里是一个细节,但是每个站点可能需要以不同的方式解析。

    据我了解,这种技术的问题在于,如果网站更改了标记,那么我的抓取工具可能会停止工作。

    是的,您需要准备好在页面更改时更新您的脚本,或者在页面不可用时从其他来源获取数据。

    当某个 API 不可用时,如何获得使用 API 的好处? Javascript 可以在这里提供帮助吗?

    抓取可能很难维护,而且很少像 API 那样可靠。

    由于Same-origin policy,无法使用客户端 Javascript 来抓取数据。如果从服务器运行,Javascript 可用于构建刮板。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-04-26
      • 1970-01-01
      • 2013-04-16
      • 2017-03-23
      • 2014-07-14
      • 1970-01-01
      • 1970-01-01
      • 2021-09-23
      相关资源
      最近更新 更多