【发布时间】:2017-08-14 22:38:10
【问题描述】:
我是一名新手程序员,试图编制一份包含所有 inc5000 公司及其行业、位置、收入和 CEO 的 Excel 列表。有什么方法可以让我自动化,这样我就不必手动输入所有 5000?
一些问题:
-inc5000 列表在一个页面上仅显示 50 家公司,滚动到下一页不会更改 URL。我尝试将 URL 转换为 HTML,但实际上没有任何元数据出现在 HTML 代码中(我使用了https://try.jsoup.org/~LGB7rk_atM2roavV0d-czMt3J_g)。
-我需要的所有信息都在这个滚动页面 (https://www.inc.com/profile/loot-crate) 上,但是随着您向下滚动页面,每个公司的 URL 都会发生变化。有什么方法可以在不手动更改 5000 个 URL 的情况下从该站点获取数据?
我真的是编程新手,我对 HTML/JavaScript/Web 设计几乎一无所知——我只知道基本的 Java。我真的很感激任何帮助或潜在的解决方案。
【问题讨论】:
-
欢迎来到 Stack Overflow。请花一些时间通过question guidelines。你试过什么了?在此处发布一些代码,并找出该代码中的具体问题,以便我们帮助您解决。
-
抱歉,误传 - 我没有任何代码,因为我在问如何解决这个问题并开始。
-
这可能是一个更难的方法,但你可以用 Java 编写一些东西,调用 Selenium 以使浏览器自动获取每个字段的值,将其写入 Excel,然后点击下一个公司按钮.
-
@SherryFeng - 你在下面尝试过我的回答吗?
标签: javascript java html excel web-scraping