抓取和非 API 交互答案

【问题标题】：Scraping and non-API interaction抓取和非 API 交互
【发布时间】：2015-03-18 20:44:37
【问题描述】：

我正在考虑构建一个应用程序来检查各个商店的库存水平。一些商店没有公开此信息的 API。

我正在考虑为每个网站构建一个爬虫。

你认为这会奏效吗？我可以只构建一个脚本来检查所有站点吗？例如，这是来自一个站点的标记：

<div class = "stock status6">
  <b> In stock </b>
</div>

所以我的脚本需要解析这个来提取股票信息。

据我了解，这种技术的问题在于，如果网站更改了标记，那么我的抓取工具可能会停止工作。

当某个 API 不可用时，如何获得使用 API 的好处？ Javascript 可以在这里提供帮助吗？

【问题讨论】：

【解决方案1】：

我正在考虑为每个网站构建一个抓取工具。

当您无权访问 API 时，这是您唯一的选择。

你认为这会奏效吗？我可以只构建一个脚本来检查所有网站吗？

抓取是解决此类问题的一种非常常见的方法。如何构建脚本在这里是一个细节，但是每个站点可能需要以不同的方式解析。

据我了解，这种技术的问题在于，如果网站更改了标记，那么我的抓取工具可能会停止工作。

是的，您需要准备好在页面更改时更新您的脚本，或者在页面不可用时从其他来源获取数据。

当某个 API 不可用时，如何获得使用 API 的好处？ Javascript 可以在这里提供帮助吗？

抓取可能很难维护，而且很少像 API 那样可靠。

由于Same-origin policy，无法使用客户端 Javascript 来抓取数据。如果从服务器运行，Javascript 可用于构建刮板。

【讨论】：