read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输？

【问题标题】：Does the S3 reader in read_csv() download files to disk first or does it use streaming?read_csv() 中的 S3 阅读器是先将文件下载到磁盘还是使用流式传输？
【发布时间】：2016-04-05 22:01:56
【问题描述】：

我在 Pandas 中使用read_csv从 S3 读取数据。我想知道它是先将文件下载到本地磁盘然后加载到内存中，还是直接将传入的数据流式传输到内存中，而无需加载到磁盘的中间步骤。

我对 Spark 的 sqlContext.read.load 函数有同样的问题。

【问题讨论】：

也许你应该问另一个关于 sqlContext.read.load 的问题，因为 Spark 是一个完全独立于 pandas 的库......我怀疑你会更有可能以这种方式得到答案。跨度>

标签： python pandas apache-spark pyspark

【解决方案1】：

pandas uses boto用于访问s3，其中does appear to stream文件数据。

【讨论】：

猜你喜欢

1970-01-01
1970-01-01
2020-11-27
2023-03-26
2011-02-21
1970-01-01
1970-01-01
1970-01-01
2022-08-03

相关资源

下载 2021-06-22
下载 2021-06-06
下载 2021-06-06

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode