【发布时间】:2017-12-08 01:23:26
【问题描述】:
我正在尝试获取以下网站的 HTML 代码。 http://fortune.com/fortune500/list/
但问题是当我们在浏览器中访问这个网站时,它只显示前 20 家公司,当我们转到网站底部时,它会加载接下来的 50 家公司。
我如何从这个网站获得前 700 家公司的 HTML 代码? 我尝试了来自该网站https://www.mkyong.com/java/how-to-get-url-content-in-java/ 的代码来获取 HTML 内容,但正如预期的那样,它只提供了前 20 家公司
非常感谢任何帮助 谢谢
【问题讨论】:
-
以编程方式您将无法做到这一点,因为该 HTML 中涉及 Ajax 调用。该链接中的方法获取 HTML,即具有 HTML 结构的文本。
-
谢谢。我可以解析下游的 HTML 结构,但问题是我需要从 fortune500list 网站获取更多公司列表(不是前 20 家公司)
标签: java html web-crawler