【发布时间】:2016-04-05 22:01:56
【问题描述】:
我在 Pandas 中使用read_csv从 S3 读取数据。我想知道它是先将文件下载到本地磁盘然后加载到内存中,还是直接将传入的数据流式传输到内存中,而无需加载到磁盘的中间步骤。
我对 Spark 的 sqlContext.read.load 函数有同样的问题。
【问题讨论】:
-
也许你应该问另一个关于 sqlContext.read.load 的问题,因为 Spark 是一个完全独立于 pandas 的库......我怀疑你会更有可能以这种方式得到答案。跨度>
标签: python pandas apache-spark pyspark