【发布时间】:2012-02-27 23:11:24
【问题描述】:
我正在做一个 NLP 项目,我需要知道如何提取仅在此维基百科页面的“简介”部分和“地理”部分中的链接:http://en.wikipedia.org/wiki/Boston
你能帮帮我吗?
【问题讨论】:
-
不是您问题的答案,但也许您使用 Wikimedia 下载 Database backup dumps 会更简单
-
你试过什么?看起来您必须遍历元素,直到找到另一个
<h3>,表示节标题。 -
@beerbajay 虽然它是相关的,但它显然不是重复的,因为它专门询问单个元素。
-
@beerbajay 这不是重复的!我想知道如何使用 select() 方法从维基百科文章的特定部分提取链接
标签: java hyperlink jsoup wikipedia extraction