【发布时间】:2015-11-02 20:47:00
【问题描述】:
当要求 Web 浏览器加载 URL 时,它会向 Web 服务器发出 HTTP 请求,以获取与该 HTTP 请求对应的响应。收到响应后,它将解析响应(HTML 文档)以获取其他资源(如果有)。因此,Web 浏览器会自动向 Web 服务器发出更多的 HTTP 请求。
在 Java 中,我们可以使用 java.net.URLConnection 为特定 URL 发出 HTTP 请求。响应将在很短的时间后可用。然后,我们需要自己解析收到的 HTML 响应,并为每个检测到的资源一个接一个地发出 HTTP 请求。
有什么方法可以在 Java 中自动发出这些自动 HTTP 请求?
或者至少有任何解析器可以解析 HTML 文档并提取应请求的所有资源的列表?
【问题讨论】:
-
寻找“java 模拟浏览器”可能会带你去你想去的地方。 htmlunit.sourceforge.net
-
您实际上是在问“我如何用 Java 编写 Web 浏览器?”对于 SO 应该是的问答格式来说,这太宽泛了。否则,您是在寻求 HTML 解析工具的推荐——参见help center中的#4@
标签: java browser httpurlconnection urlconnection