【发布时间】:2016-04-25 14:30:38
【问题描述】:
我想知道如何提取在时间窗口内为 Wikipedia 中的特定文章添加和删除的所有 Wikipedia 链接。
到目前为止,我知道如何在这个问题中提取维基百科的修订:How to get full Wikipedia revision-history list from some article? 以及如何针对特定时间窗口进行操作:API to get Wikipedia revision id by date
例如,以下是我如何获取文章 Germanwings_Flight_9525 的时间窗口的修订内容: https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvlimit=500&titles=Germanwings_Flight_9525&rvstart=20150325180000&rvend=20150323180000&rvprop=ids|timestamp|content
如何获取添加和删除的链接?
谢谢
【问题讨论】:
-
请提供您目前已经完成的代码sn-ps。
-
我还没有编写任何代码,我正在尝试查看是否有一个简单的解决方案来仅获取链接(没有太多的正则表达式代码)。
-
给我们举个'link'的例子,因为维基百科的链接有好几种类型
-
嗨,我使用以下类型的请求解决了我的问题:en.wikipedia.org/w/… 我现在遇到的问题是当文本太长时出现错误。我读到我必须做一个 POST REQUEST 来解决它,有人知道怎么做吗?
标签: hyperlink history wikipedia revision