【问题标题】:Indexing Wikipedia's Links to Make a Graph索引维基百科的链接以制作图表
【发布时间】:2013-04-21 14:59:43
【问题描述】:

我下载了 Wikipedia 转储(this page 上的第一个 torrent)并尝试通过将所有链接存储在 python 字典中来索引它们。我将链接作为目的地列表存储在字典中,并带有当前页面的键。然而,当我处理转储时,我最终遇到了 MemoryError,所以我决定为每个页面分配一个整数 ID。这让我走得更远,但我仍然以 MemoryError 告终。如果没有那个,我该怎么做才能处理这个?我宁愿将它全部存储在内存中。由于我的代码相当长,我将其发布在here

【问题讨论】:

    标签: python xml algorithm memory graph


    【解决方案1】:

    您应该开始查看数据库,以便为您的 id 和相关链接编制索引。

    首先,您可以尝试SqliteMySQL

    这里是起点at python database handling.

    我个人喜欢 Postgresql 与 python 模块 psycopg2 结合使用

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2011-12-13
      • 2013-12-26
      • 2020-07-20
      • 1970-01-01
      • 1970-01-01
      • 2016-12-22
      • 1970-01-01
      相关资源
      最近更新 更多