【发布时间】:2015-04-04 14:41:24
【问题描述】:
社区!
我的项目很简单:我有一个网站链接,该网站包含不同化学物质的多种信息,我想提取一些数据并放入 pdf 中。事情是我想保留原始 HTML 的格式(当然使用它的 css)。 物质示例:http://www.molbase.com/en/msds_1659-31-0-moldata-2.html#tabs
我使用 jsoup 读取页面底部表格的 HTML,MSDS 之一,包含多个部分,其中包含有关物质的不同信息,但我真的不知道如何将确切的 HTML 格式保存到我的pdf文件。我也尝试过使用 iText,但它给了我“缺少结束标记”错误,如果它有效,它会打印整个页面,而不仅仅是那个 msds 表。
这是我尝试做的,但没有效果:
Document docu = Jsoup.connect(urlbun).get();
Element tableHeader = docu.select("div[class=\"msds\"]")
.first();
String[] finSyn = tableHeader.text().split(" ");
String moreText =" ";
我试图拆分网页在该 div 下的文本 ("class= "msds""),但我找不到好的方法来拆分它。
拜托,你能告诉我该怎么做吗?即使格式不一样,我希望能够以相同的方式显示信息,带有缩进等。
谢谢!
【问题讨论】: