【问题标题】:Parsing a huge HTML stream with Jsoup使用 Jsoup 解析巨大的 HTML 流
【发布时间】:2012-09-18 13:57:22
【问题描述】:

任何人都可以提供关于我将如何处理解析非常大的 HTML 流/文件的指针或建议。例如,我有一个大约 270,000 行的表,我想一次将大约 20,000 行带入我的应用程序。 jsoup parse 方法允许 HTML 片段,但我不清楚什么可能是读取代表此片段的 XXX 字节的最有效和最干净的方法。

非常感谢任何帮助。

【问题讨论】:

    标签: jsoup


    【解决方案1】:

    如果它是 XHTML,并且您不需要一次将整个内容保存在内存中,更好的选择可能是使用 SAX 解析器并使用开始和结束标记事件来提取您需要的数据。

    另一个想法可能是 StAX 解析器。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2012-11-06
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-12-11
      • 1970-01-01
      • 1970-01-01
      • 2014-01-01
      相关资源
      最近更新 更多