【问题标题】:Scraping Wikipedia abstracts in dictionaries for json.dump [duplicate]在字典中为 json.dump 抓取维基百科摘要 [重复]
【发布时间】:2021-04-15 14:36:51
【问题描述】:

我希望从 SimpleWiki(如果可能,通常是任何 Wikimedia 网站)中抓取(所有)页面以获取其摘要(不在正文中的前几段)。

然后我想将这些文件包装到以下形式的字典中:

{
  "title": "Some Wiki title page",
  "source": "Some Wiki link",
  "summary": "Some Wiki summary..."
}

然后json.dump他们。

例如,我希望能够获取一个随机页面,例如 https://simple.wikipedia.org/wiki/A,然后将其设为以下形式:

{
  "title": "A",
  "source": "https://simple.wikipedia.org/wiki/A",
  "summary": "A or a is the first letter of the English alphabet. ... . A capital a is written "A". Use a capital a at the start of a sentence if writing"
}

我只是想知道是否有一种简单的方法可以做到这一点 - 我已经四处搜索(例如 Wikimedia 转储)但还没有找到任何东西。

【问题讨论】:

  • 我想最简单的方法是使用 wiki 的 API。 mediawiki.org/wiki/API:Main_page
  • 您可以从 wiki 的网站下载 XML 格式的转储文件。
  • @MarkLand 是的,我指的是那些转储。上次我使用它们时(2 年前),它们包含所有内容,我可以使用读取 XML 的简单 Python 脚本来解析和抓取数据。
  • @LucaAngioloni 啊,太棒了——你还碰巧有那个脚本吗? :)
  • @MarkLand 是的,但它不是开源的,因为它属于一家公司,所以我不能分享它。不过我可以给你一个提示。它使用的是 python 拥有的标准 sax 解析器。

标签: python json web-scraping beautifulsoup wikipedia


【解决方案1】:

您要查找的内容应该是 Pywikibot:https://www.mediawiki.org/wiki/Manual:Pywikibot/Installation#Install_Pywikibot。在安装过程中,您可以选择要查找的系列(wikidata、wikipedia、mediawiki 等)。

【讨论】:

    猜你喜欢
    • 2011-07-11
    • 2019-05-24
    • 1970-01-01
    • 2017-04-30
    • 1970-01-01
    • 2020-07-20
    • 2013-11-13
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多