【问题标题】:using Dataframe from %pyspark to %python in zeppelin在 zeppelin 中使用从 %pyspark 到 %python 的 Dataframe
【发布时间】:2019-08-09 08:30:58
【问题描述】:

我在 %pyspark 中有一个 pandas 数据框,我想在 zeppelin 的 %python 单元格中使用它。我做不到。知道如何做到这一点吗?

【问题讨论】:

  • 如果不将数据存储在两个实例外部的某个位置(csv、pickle...),您将无法直接执行此操作。

标签: python pandas pyspark apache-zeppelin


【解决方案1】:

你可以直接使用,毕竟都是python,%pyspark只是python的API,可以用python语言使用spark,也可以在pandas DataFrames和pyspark DataFrames之间切换:

from pyspark.sql import SparkSession
spark = SparkSession.builder.appName('app_name').getOrCreate()
your_pyspark_df = spark.createDataFrame(your_pd_df)

另外,您可以使用 .toPandas() 方法返回 pandas DataFrame。

【讨论】:

    猜你喜欢
    • 2016-09-12
    • 2017-07-14
    • 2019-05-09
    • 2017-07-04
    • 2021-07-10
    • 2016-11-07
    • 2017-05-25
    • 2016-11-28
    • 1970-01-01
    相关资源
    最近更新 更多