【问题标题】:jsoup Huge html downloadjsoup 巨大的html下载
【发布时间】:2018-04-30 02:28:14
【问题描述】:

我正在尝试下载一个 HTML 文件,它实际上是一个大约 6000 行的表格,所以我编写了这段代码

 Document _DOM=Jsoup.connect(_EXACT1_URL)
            .cookies(_COOCKIES)
            .timeout(70000)
            .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
            .get();

当我尝试解析我的 Document(_DOM) 并计算行时,我得到的只有 1127 行 我尝试将文档字符串写入文件(page.html)然后解析,我得到相同的结果,当我使用浏览器(Firefox)下载时文件大小约为(1.2 Mb)实际大小是( 6MB) 我像这样增加了 JVM 堆大小内存

java -Xms32m -Xmx500 -jar myJarFile.jar, unfortunately, get the same result.

非常感谢您的帮助。

【问题讨论】:

  • Jsoup 对解析后的 H​​tml 进行格式化,因此格式可能与网站的格式不同。但是你的问题到底是什么?

标签: java jsoup


【解决方案1】:

我相信你需要设置maxBodySize(int)。默认大小为 1mb。

例如:

Document _DOM = Jsoup.connect(_EXACT1_URL)
               .cookies(_COOCKIES)
               .timeout(70000)
               .maxBodySize(1024*1024*10) // Size in Bytes - 10 MB 
               .userAgent("Mozilla/5.0 (Windows NT 6.1; rv:19.0) Gecko/20100101 Firefox/19.0")
               .get();

【讨论】:

    猜你喜欢
    • 2012-09-18
    • 1970-01-01
    • 1970-01-01
    • 2023-03-25
    • 2015-05-31
    • 2018-02-05
    • 2015-07-26
    • 2012-06-18
    • 1970-01-01
    相关资源
    最近更新 更多