【发布时间】:2011-10-30 15:32:04
【问题描述】:
我正在尝试解析 http://www.craigslist.org/about/sites 以构建一组文本/链接,以使用此信息动态加载程序。到目前为止,我已经这样做了:
Document doc = Jsoup.connect("http://www.craigslist.org/about/sites").get();
Elements elms = doc.select("div.colmask"); // gets 7 countries
在这个标签下面有我想要得到的doc.select("div.state_delimiter,ul") 标签。我设置了我的迭代器并进行了一段时间的查看并调用iterator.next().outerHtml();。我看到了每个国家的所有标签。
我怎样才能遍历每个div.state_delimiter,拉出该文本然后向下直到
有一个</ul> 定义了州各个县/城市链接/文本的结尾?
我一直在玩这个,可以通过将outerHtml() 设置为String 然后手动解析字符串来做到这一点,但我相信有更简单的方法可以做到这一点。我试过text(),也试过attr("div.state_delimiter"),但我想我搞砸了模式/例程来正确地做到这一点。想知道是否有人可以在这里帮助我并向我展示如何将 div.state_delimiter 放入文本字段,然后将 <ul><li></li></ul> 我想要每个州的 <ul></ul> 下的所有 <li></li> 。希望尽可能简单地获取与之相关的 http:// && html。
【问题讨论】:
标签: java html-parsing jsoup