【问题标题】:Processing data from a large data grab处理来自大型数据抓取的数据
【发布时间】:2021-01-19 02:00:55
【问题描述】:

我从 archive.org 下载了一个大型 (>75GB) 数据抓取,其中包含 2020 年 6 月以来的大部分或全部推文。存档本身包含 31 个 .tar 文件,每个包含嵌套文件夹,最低级别包含几个压缩的 .json 文件。我需要一种方法来从我的 Python 应用程序访问存储在此存档中的数据。我想使用 MongoDB,因为它基于文档的数据库结构似乎非常适合此存档中的数据类型。这样做的最佳方式是什么?

这是存档的样子(you can find it here)

任何帮助将不胜感激。

编辑 - 明确地说,我不打算使用 MongoDB。我也对其他数据库解决方案持开放态度。

【问题讨论】:

    标签: python database mongodb twitter archive


    【解决方案1】:

    MongoDB 肯定不是一个好主意。因为您需要将数据库加载到 RAM 中。除非您有一个集群左右,否则您肯定没有足够的 RAM 来托管此内容。

    所以如果你仍然想在这个范围内使用 mongoDB,你可能需要过滤它。

    【讨论】:

    • 那么,还有 MongoDB 的替代品吗?或者,如果我要先过滤它,我将如何以编程方式进行呢?
    猜你喜欢
    • 1970-01-01
    • 2021-03-05
    • 2010-09-15
    • 2023-04-02
    • 2016-05-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多