【发布时间】:2013-12-08 22:22:43
【问题描述】:
我正在尝试制作一个自动化的 java 程序,它将获取某个网页的源代码,但是我能够通过自动化程序获得的源代码与我在右键单击网页。 现在,根据我在互联网上找到的代码,这是我的解决方案,它不起作用。我需要获取评论的文本,下面的代码没有返回它。
public static void main(String[] args) throws IOException {
URL url = new URL(
"http://www.tripadvisor.com/ShowUserReviews-g60745-d481776-r184086024-Prudential_Center-Boston_Massachusetts.html#REVIEWS");
URLConnection spoof = url.openConnection();
spoof.setRequestProperty("User-Agent",
"Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0; H010818)");
BufferedReader in = new BufferedReader(new InputStreamReader(
spoof.getInputStream()));
String strLine = "";
String finalHTML = "";
// Loop through every line in the source
while ((strLine = in.readLine()) != null) {
finalHTML += strLine+"\n";
}
System.out.println(finalHTML);
}
}
【问题讨论】:
-
我怀疑您在 JS 启动并更改页面内容之前获得了原始 HTML 代码。也许尝试使用一些 WebDriver 而不是 URLConnection?
-
你能更好地解释什么不起作用以及实际发生了什么吗?
-
我得到了部分 html 代码,但没有明确的评论文本,也没有指向它们的链接,这正是我需要的
标签: java html web urlconnection