Java - 如何加载 HTML 网站的完整源代码答案

【问题标题】：Java - How to load the full source of an HTML websiteJava - 如何加载 HTML 网站的完整源代码
【发布时间】：2012-03-23 22:44:58
【问题描述】：

我正在尝试将 HTML 网站的完整源代码加载到 Java 中的 String 中。我尝试了几种方法，但是，我得到了几乎所有的源代码。更糟糕的是：我没有得到的主要部分之一是我最需要的部分！

【问题讨论】：

我们对您表示同情，但在您向我们展示您的代码并更详细地解释您未收到的内容的性质之前，您不会得到太多其他信息。
向我们展示您到目前为止所做的工作并更详细地解释。？
HTML 网站是否公开可用？如果可以，能发个链接吗？
联系网站的作者并询问他们的来源。说真的，您指的是 HTML 源代码还是 HTML 网站的源代码？
如果您需要的代码是动态创建的，使用 DOM 操作，那么您实际上需要 Javascript 引擎来生成它。 Vanilla Java 无法做到这一点。

标签： java html web-scraping

【解决方案1】：

URL url = new URL("http://www.website.com");
URLConnection spoof = url.openConnection();

//Spoof the connection so we look like a web browser
spoof.setRequestProperty( "User-Agent", "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0;    H010818)" );
BufferedReader in = new BufferedReader(new InputStreamReader(spoof.getInputStream()));
String strLine = "";
String finalHTML = "";
//Loop through every line in the source
while ((strLine = in.readLine()) != null){
   finalHTML += strLine;
}

【讨论】：

我在那里看到了一个 Mozilla 选项。这是否仅在您拥有 Mozilla 时才有效？我希望这适用于绝大多数网络浏览器。
不，您只是在假装您使用的是 Mozilla 浏览器，因此看起来您是浏览该网站的合法用户。
哦，好的。让我测试一下。

【解决方案2】：

这可能是因为您要查找的内容实际上是通过 ajax/javascript 动态加载的。

例如，一个网站可能包含一个空的 DIV 标记，只有在页面加载后（通过 AJAX 调用到另一个位置）才会填充许多内容。

【讨论】：

在这种情况下，HtmlUnit 或类似的库很有可能能够处理这些动态内容。