【问题标题】:How to scrape website data into an Excel worksheet?如何将网站数据抓取到 Excel 工作表中?
【发布时间】:2017-08-14 22:38:10
【问题描述】:

我是一名新手程序员,试图编制一份包含所有 inc5000 公司及其行业、位置、收入和 CEO 的 Excel 列表。有什么方法可以让我自动化,这样我就不必手动输入所有 5000?

一些问题:

-inc5000 列表在一个页面上仅显示 50 家公司,滚动到下一页不会更改 URL。我尝试将 URL 转换为 HTML,但实际上没有任何元数据出现在 HTML 代码中(我使用了https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g)。

-我需要的所有信息都在这个滚动页面 (https://www.inc.com/profile/loot-crate) 上,但是随着您向下滚动页面,每个公司的 URL 都会发生变化。有什么方法可以在不手动更改 5000 个 URL 的情况下从该站点获取数据?

我真的是编程新手,我对 HTML/JavaScript/Web 设计几乎一无所知——我只知道基本的 Java。我真的很感激任何帮助或潜在的解决方案。

【问题讨论】:

  • 欢迎来到 Stack Overflow。请花一些时间通过question guidelines。你试过什么了?在此处发布一些代码,并找出该代码中的具体问题,以便我们帮助您解决。
  • 抱歉,误传 - 我没有任何代码,因为我在问如何解决这个问题并开始。
  • 这可能是一个更难的方法,但你可以用 Java 编写一些东西,调用 Selenium 以使浏览器自动获取每个字段的值,将其写入 Excel,然后点击下一个公司按钮.
  • @SherryFeng - 你在下面尝试过我的回答吗?

标签: javascript java html excel web-scraping


【解决方案1】:

这是最简单的方法:

转到页面,按 f12,转到调试工具的“网络”选项卡,选择 XHR(仅过滤到数据调用)然后滚动到页面底部。该页面对每个公司进行查询,您可以在调试工具中访问。

获得所有页面后,您可以向左突出显示文件名列表中的所有行,单击鼠标右键,然后将其保存到 .har 文件中。

从那里,只需编写一个脚本来提取 json 就可以了。

【讨论】:

    猜你喜欢
    • 2020-09-12
    • 1970-01-01
    • 2020-05-10
    • 1970-01-01
    • 1970-01-01
    • 2023-01-15
    • 2021-06-20
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多