【发布时间】:2017-06-04 00:30:56
【问题描述】:
我正在尝试实现程序来读取网页源代码并将其保存在文本文件中,然后在其中执行一些操作,但是当我读取网页源代码时出现问题,原始网页源代码和输出之间存在差异java程序网页源代码。
我的程序:
String inputLine;
URL link = new URL("http://www.ammanu.edu.jo/English/Articles/newsArticle.aspx?id=2935");
BufferedReader in = new BufferedReader( new InputStreamReader(link.openStream(),"UTF-8"));
while ((inputLine = in.readLine()) != null){
System.out.println(inputLine);
}
in.close();
以及我在这行源代码中的问题
第 1156 行的原始网页源代码:
<img id="img" src="http://www.ammanu.edu.jo/AdminImages/20652935/_DSC0246.jpg" style="height:310px;width:400px;border-width:0px;display:block;float:left; padding-right:5px;" />
java程序的实际输出:
<img id="img" src="http://www.ammanu.edu.jo/AdminImages/20652935/_DSC0246.jpg" height="310" width="400" border="0" style="display:block;float:left; padding-right:5px;" />
对于这个问题有什么建议的解决方案吗?
【问题讨论】:
标签: java webpage html-content-extraction web-content