【发布时间】:2021-01-19 02:00:55
【问题描述】:
我从 archive.org 下载了一个大型 (>75GB) 数据抓取,其中包含 2020 年 6 月以来的大部分或全部推文。存档本身包含 31 个 .tar 文件,每个包含嵌套文件夹,最低级别包含几个压缩的 .json 文件。我需要一种方法来从我的 Python 应用程序访问存储在此存档中的数据。我想使用 MongoDB,因为它基于文档的数据库结构似乎非常适合此存档中的数据类型。这样做的最佳方式是什么?
这是存档的样子(you can find it here):
任何帮助将不胜感激。
编辑 - 明确地说,我不打算使用 MongoDB。我也对其他数据库解决方案持开放态度。
【问题讨论】:
标签: python database mongodb twitter archive