【问题标题】:Someway of removing internal links from Wikipedia XML files?以某种方式从维基百科 XML 文件中删除内部链接?
【发布时间】:2009-04-04 08:35:36
【问题描述】:

如果我下载了 Wikipedia XML 转储文件,有没有办法从 XML 文件中删除所有内部链接?

谢谢

【问题讨论】:

  • 感谢大家的帮助。
  • 出于好奇,您选择了哪种方法?
  • 尚未决定,因为不幸的是,仅删除 [[ 不起作用,因为 Wikipedia 有额外的格式。我对机器人还不太有信心,所以暂时搁置,直到我可以花钱请人去做!所以,没有办法!感谢大家的帮助,非常有用。

标签: mediawiki wikipedia populate


【解决方案1】:

如果您要将它们导入本地 wiki,您可以做的一件事是导入您想要的所有文件,然后使用机器人(例如,pywikipediabot 易于使用)摆脱所有内部链接。

【讨论】:

  • 更好的是,如果您的 wiki 将在您可以访问 Internet 的地方使用,您可以将所有内部链接更改为 [[wikipedia:PageName|PageName]],然后他们会参考他们的原创文章。
【解决方案2】:

维基百科数据库转储和有关使用它们的信息位于:Wikipedia:Database download。您应该这样做,而不是编写脚本来抓取 Wikipedia。

【讨论】:

  • 是的,发现了,抱歉我的问题真的错了!如何从 xml 文件中删除内部链接?
【解决方案3】:

我会尝试使用 XSLT 将 XML 文件转换为另一个 XML 文件。

【讨论】:

    【解决方案4】:

    您可以在自己喜欢的文本编辑器中进行搜索和替换,将 [[ 和 ]] 替换为空。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2020-07-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-04-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多