【问题标题】:JSOUP gives weird output with URLJSOUP 给出带有 URL 的奇怪输出
【发布时间】:2015-09-10 06:59:07
【问题描述】:

我正在使用 JSOUP 解析 HTML 页面并从中提取所有文本。下面的代码适用于其他 URL,但这会给出这个 URL 的奇怪输出。 http://gumgum-public.s3.amazonaws.com/numbers.html

    Document doc = null;
    doc = Jsoup.connect("http://gumgum-public.s3.amazonaws.com/numbers.html").maxBodySize(0).get();
    String parsedText = doc.body().text();
    System.out.println("Output-"+parsedText);

输出-

Output-This is a test page

Output-This is a test page

HTML 页面包含大量数字。请帮忙..

谢谢

【问题讨论】:

  • 数字在想要的页面上没有html标签,你的lib只读取html标签包围的内容...
  • 我想到了,但是当我使用在线 JSOUP 教程 try.jsoup.org 检查相同的 URL 时。它提取了数字。
  • 因为http://try.jsoup.org/ 自动将整个内容包装在html标签中。
  • 如果我必须从此类网页中提取文本,我有哪些选择?
  • 用html标签包围它?然后尝试解析它...

标签: java html-parsing jsoup


【解决方案1】:

那么你的解决方案如下:

  1. 下载页面
  2. 把它切成小块
  3. 前后添加标签
  4. 将文件发送到 Jsoup
  5. 获取您的内容。
  6. 连接部件

【讨论】:

  • 你发现你必须把它切成小块,这样 jsoup 才能处理它。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2014-01-21
  • 2014-10-29
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2014-03-03
  • 2022-07-08
相关资源
最近更新 更多