处理来自大型数据抓取的数据答案

【问题标题】：Processing data from a large data grab处理来自大型数据抓取的数据
【发布时间】：2021-01-19 02:00:55
【问题描述】：

我从 archive.org 下载了一个大型 (>75GB) 数据抓取，其中包含 2020 年 6 月以来的大部分或全部推文。存档本身包含 31 个 .tar 文件，每个包含嵌套文件夹，最低级别包含几个压缩的 .json 文件。我需要一种方法来从我的 Python 应用程序访问存储在此存档中的数据。我想使用 MongoDB，因为它基于文档的数据库结构似乎非常适合此存档中的数据类型。这样做的最佳方式是什么？

这是存档的样子(you can find it here)：

任何帮助将不胜感激。

编辑 - 明确地说，我不打算使用 MongoDB。我也对其他数据库解决方案持开放态度。

【问题讨论】：

标签： python database mongodb twitter archive

【解决方案1】：

MongoDB 肯定不是一个好主意。因为您需要将数据库加载到 RAM 中。除非您有一个集群左右，否则您肯定没有足够的 RAM 来托管此内容。

所以如果你仍然想在这个范围内使用 mongoDB，你可能需要过滤它。

【讨论】：

那么，还有 MongoDB 的替代品吗？或者，如果我要先过滤它，我将如何以编程方式进行呢？