【问题标题】:Does the wikipedia API give structured information on the infobox?维基百科 API 是否在信息框上提供结构化信息?
【发布时间】:2017-09-08 04:51:27
【问题描述】:

我知道以下解决方案:

  1. 维基百科信息框可以作为 HTML 或“wikitext”模型返回。但是,在这两种情况下,我都需要在之后解析数据,这很容易出错。
  2. 使用 DBpedia 或 Wikidata。不幸的是,这些服务没有我想要使用的所有数据。

有没有办法以 json 或其他结构化格式获取信息框信息?或者,是否有任何 ruby​​ gem 可以解析“wikitext”模型数据并将其转换为结构化格式?如果没有,我在哪里可以找到有关信息框格式的文档来自己做?

【问题讨论】:

标签: wikipedia wikipedia-api


【解决方案1】:

维基百科不提供任何关于信息框的结构化信息 - 唯一的方法是自己解析 wikitext,或者使用为您解析的服务,例如 DBpedia。

每个模板都应该有一个模板文档,您可以在名为Template:<name of the template> 的维基页面上找到它。例如,“Infobox officeholder”的文档可以在https://en.wikipedia.org/wiki/Template:Infobox_officeholder 找到。可以通过查看源码查看infobox/template的名称,然后在{{后面直接查找字符串({{Infobox officeholder是infobox officeholder使用的开始)。

https://github.com/earwig/mwparserfromhell 是 Python 的出色解析器,遗憾的是,我不知道有任何 ruby​​ gems 可以完成这项任务。

【讨论】:

    猜你喜欢
    • 2016-07-27
    • 2016-02-25
    • 1970-01-01
    • 2020-07-27
    • 2020-02-02
    • 2011-12-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多