【发布时间】:2019-08-09 08:30:58
【问题描述】:
我在 %pyspark 中有一个 pandas 数据框,我想在 zeppelin 的 %python 单元格中使用它。我做不到。知道如何做到这一点吗?
【问题讨论】:
-
如果不将数据存储在两个实例外部的某个位置(csv、pickle...),您将无法直接执行此操作。
标签: python pandas pyspark apache-zeppelin
我在 %pyspark 中有一个 pandas 数据框,我想在 zeppelin 的 %python 单元格中使用它。我做不到。知道如何做到这一点吗?
【问题讨论】:
标签: python pandas pyspark apache-zeppelin
你可以直接使用,毕竟都是python,%pyspark只是python的API,可以用python语言使用spark,也可以在pandas DataFrames和pyspark DataFrames之间切换:
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('app_name').getOrCreate()
your_pyspark_df = spark.createDataFrame(your_pd_df)
另外,您可以使用 .toPandas() 方法返回 pandas DataFrame。
【讨论】: