【发布时间】:2012-09-07 22:02:17
【问题描述】:
我有这个网络应用程序,用户(主要是英语学习者或儿童)可以在我的数据库中搜索一些现有的许可文章。它们可以按类别、标签以及每个标签的难度进行过滤。
因此,我正在考虑将 Wikipedia 中的文章添加到数据库中,并且能够不时更新我数据库中的文章,但我不确定什么是最好的方法。我的理解是我每次都需要下载压缩文件然后解压,这样我才能得到XML格式的文章。那么我可以根据标签将它们添加到数据库中吗?有没有办法让它自动更新?我阅读了有关数据转储的文章,但不知道如何开始。
http://en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema
【问题讨论】:
-
您首先需要一个用户帐户,以防您不知道;)。其次,您需要访问他们的 API Web 服务,此时您需要处理他们通过调用返回的 XML 结果。
-
@GoldBishop 即使没有帐户,您也可以使用 Wikipedia 的 API,以防万一您不知道。并且 Ruby 提到的转储与 API 没有任何关系。
-
@svick 没有帐户,您不需要获取授权 Cookie 吗?使用该帐户,您只需将唯一的帐户 ID 与另一个身份验证字符串一起传递,您就可以在桌面上完成所有操作。
-
@GoldBishop 我不完全确定您在说什么,但是不,如果您没有帐户,则不必做任何特别的事情。而且我不知道它与我的桌面有什么关系,也不知道“另一个身份验证字符串”是什么(它当然与 Wikipedia API 没有任何关系)。
-
@svick 只是想知道因为我不得不在其他 mediawiki 实现上发布一些身份验证字符串,只是认为维基百科也是如此,我的错误信息。
标签: html xml database text wikipedia