【问题标题】:Does the S3 reader in read_csv() download files to disk first or does it use streaming?read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输?
【发布时间】:2016-04-05 22:01:56
【问题描述】:

我在 Pandas 中使用read_csv从 S3 读取数据。我想知道它是先将文件下载到本地磁盘然后加载到内存中,还是直接将传入的数据流式传输到内存中,而无需加载到磁盘的中间步骤。

我对 Spark 的 sqlContext.read.load 函数有同样的问题。

【问题讨论】:

  • 也许你应该问另一个关于 sqlContext.read.load 的问题,因为 Spark 是一个完全独立于 pandas 的库......我怀疑你会更有可能以这种方式得到答案。跨度>

标签: python pandas apache-spark pyspark


【解决方案1】:

pandas uses boto用于访问s3,其中does appear to stream文件数据。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-11-27
    • 2023-03-26
    • 2011-02-21
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-08-03
    相关资源
    最近更新 更多