【发布时间】:2015-09-10 06:59:07
【问题描述】:
我正在使用 JSOUP 解析 HTML 页面并从中提取所有文本。下面的代码适用于其他 URL,但这会给出这个 URL 的奇怪输出。 http://gumgum-public.s3.amazonaws.com/numbers.html
Document doc = null;
doc = Jsoup.connect("http://gumgum-public.s3.amazonaws.com/numbers.html").maxBodySize(0).get();
String parsedText = doc.body().text();
System.out.println("Output-"+parsedText);
输出-
Output-This is a test page
Output-This is a test page
HTML 页面包含大量数字。请帮忙..
谢谢
【问题讨论】:
-
数字在想要的页面上没有html标签,你的lib只读取html标签包围的内容...
-
我想到了,但是当我使用在线 JSOUP 教程 try.jsoup.org 检查相同的 URL 时。它提取了数字。
-
因为
http://try.jsoup.org/自动将整个内容包装在html标签中。 -
如果我必须从此类网页中提取文本,我有哪些选择?
-
用html标签包围它?然后尝试解析它...
标签: java html-parsing jsoup