【发布时间】:2013-04-21 14:59:43
【问题描述】:
我下载了 Wikipedia 转储(this page 上的第一个 torrent)并尝试通过将所有链接存储在 python 字典中来索引它们。我将链接作为目的地列表存储在字典中,并带有当前页面的键。然而,当我处理转储时,我最终遇到了 MemoryError,所以我决定为每个页面分配一个整数 ID。这让我走得更远,但我仍然以 MemoryError 告终。如果没有那个,我该怎么做才能处理这个?我宁愿将它全部存储在内存中。由于我的代码相当长,我将其发布在here。
【问题讨论】:
标签: python xml algorithm memory graph