如何将网站数据抓取到 Excel 工作表中？答案

【问题标题】：How to scrape website data into an Excel worksheet?如何将网站数据抓取到 Excel 工作表中？
【发布时间】：2017-08-14 22:38:10
【问题描述】：

我是一名新手程序员，试图编制一份包含所有 inc5000 公司及其行业、位置、收入和 CEO 的 Excel 列表。有什么方法可以让我自动化，这样我就不必手动输入所有 5000？

一些问题：

-inc5000 列表在一个页面上仅显示 50 家公司，滚动到下一页不会更改 URL。我尝试将 URL 转换为 HTML，但实际上没有任何元数据出现在 HTML 代码中（我使用了https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g）。

-我需要的所有信息都在这个滚动页面 (https://www.inc.com/profile/loot-crate) 上，但是随着您向下滚动页面，每个公司的 URL 都会发生变化。有什么方法可以在不手动更改 5000 个 URL 的情况下从该站点获取数据？

我真的是编程新手，我对 HTML/JavaScript/Web 设计几乎一无所知——我只知道基本的 Java。我真的很感激任何帮助或潜在的解决方案。

【问题讨论】：

欢迎来到 Stack Overflow。请花一些时间通过question guidelines。你试过什么了？在此处发布一些代码，并找出该代码中的具体问题，以便我们帮助您解决。
抱歉，误传 - 我没有任何代码，因为我在问如何解决这个问题并开始。
这可能是一个更难的方法，但你可以用 Java 编写一些东西，调用 Selenium 以使浏览器自动获取每个字段的值，将其写入 Excel，然后点击下一个公司按钮.
@SherryFeng - 你在下面尝试过我的回答吗？

【解决方案1】：

这是最简单的方法：

转到页面，按 f12，转到调试工具的“网络”选项卡，选择 XHR（仅过滤到数据调用）然后滚动到页面底部。该页面对每个公司进行查询，您可以在调试工具中访问。

获得所有页面后，您可以向左突出显示文件名列表中的所有行，单击鼠标右键，然后将其保存到 .har 文件中。

从那里，只需编写一个脚本来提取 json 就可以了。

【讨论】：