【发布时间】:2014-04-27 19:09:27
【问题描述】:
我正在通过 java 中的维基百科转储进行解析。在我的模块中,我想知道当前页面引用的 wiki 内部页面的页面 ID。获取内部链接以及从中获取 url 很容易。但是如何从 url 中获取 Page ID。
我必须为此使用一些 mediaWiki 吗?如果是的话如何 还有其他选择吗?
例如:http://en.wikipedia.org/wiki/United_States 我想得到它的 Page-Id 即 3434750
【问题讨论】:
-
页面中指定的页面id在哪里?
-
如果 Wikipedia 没有提供 API 供您检索此信息,看起来您需要在“爬虫”中构建一些自动化功能才能进入每个页面并检索您想要的 ID(您可以试试 Selenium/HTMLUnitDriver)。
-
从Wikipedia API 开始。从页面源代码来看,这个 ID 似乎是
mw.config.set中的wgArticleId,但我不确定如何从 API 中提取它。 -
我想我必须做一些解析来检索它
标签: java mediawiki wikipedia wikipedia-api