JSOUP 给出带有 URL 的奇怪输出答案

【问题标题】：JSOUP gives weird output with URLJSOUP 给出带有 URL 的奇怪输出
【发布时间】：2015-09-10 06:59:07
【问题描述】：

我正在使用 JSOUP 解析 HTML 页面并从中提取所有文本。下面的代码适用于其他 URL，但这会给出这个 URL 的奇怪输出。 http://gumgum-public.s3.amazonaws.com/numbers.html

    Document doc = null;
    doc = Jsoup.connect("http://gumgum-public.s3.amazonaws.com/numbers.html").maxBodySize(0).get();
    String parsedText = doc.body().text();
    System.out.println("Output-"+parsedText);

输出-

Output-This is a test page

Output-This is a test page

HTML 页面包含大量数字。请帮忙..

谢谢

【问题讨论】：

数字在想要的页面上没有html标签，你的lib只读取html标签包围的内容...
我想到了，但是当我使用在线 JSOUP 教程 try.jsoup.org 检查相同的 URL 时。它提取了数字。
因为http://try.jsoup.org/ 自动将整个内容包装在html标签中。
如果我必须从此类网页中提取文本，我有哪些选择？
用html标签包围它？然后尝试解析它...

标签： java html-parsing jsoup

【解决方案1】：

那么你的解决方案如下：

下载页面
把它切成小块
前后添加标签
将文件发送到 Jsoup
获取您的内容。
连接部件

【讨论】：

你发现你必须把它切成小块，这样 jsoup 才能处理它。