【发布时间】:2015-04-11 03:16:54
【问题描述】:
我知道有很多关于解析 HTML 表格的问题。但是,在做了一些研究并研究了 Jsoup 之后,我有点被它难住了。
我有时间表
我想解析以取出 <td> 标记的文本,但将其保留为某种格式。
只需在 Jsoup 中尝试可用的功能并查看 Cookbook 和当前的 API 文档即可。由此,我设法做到了以下几点;
Document doc = Jsoup.connect("http://crwnmis3.staffs.ac.uk/Reporting/Individual;Student%20Sets;name;L2SE?&template=Online%20One%20Page%20Student%20Set&days=1-5&periods=5-53&width=0&height=0").get();
String title = doc.select("td").text();
System.out.println(title);
唯一的问题是这会打印出一个长字符串。
我更希望将数据分成可管理的块。也许我可以做一个title.Split();?
但是,这意味着没有讲座有时间。除非没有计算空白并计算时间,假设每个空白是 15 分钟。
【问题讨论】:
-
不要只是玩玩,而是阅读 JSoup 的文档并正确使用文档树。
-
我首先获取表格的列(时间),然后获取该列中的实际单元格(实际数据)。然后你就有时间和实际数据了。
-
您可能需要先获取
trs,您的第一个 tr 将为您提供列数,每列将相隔 15 分钟。您需要使用该数字。