【问题标题】:Not able to create spark dataframe by pyspark无法通过 pyspark 创建 spark 数据框
【发布时间】:2018-06-17 03:40:56
【问题描述】:

我想使用 PySpark 创建 spark 数据框,为此我在 PyCharm 中运行了这段代码:

from pyspark.sql import SparkSession
Spark_Session:SparkSession.builder\
.enableHiveSupport()\
.master("local"\
.getOrCreate()

但是,它会返回以下错误:

使用 Spark 的默认 log4j 配置文件:org/apache/spark/log4j-defaults.properties 将默认日志级别设置为“WARN”。 要调整日志记录级别,请使用 sc.setLogLevel(newLevel)。对于 SparkR,使用 setLogLevel(newLevel)。 18/01/08 10:17:55 WARN NativeCodeLoader:无法为您的平台加载 native-hadoop 库...在适用的情况下使用内置 java 类 18/01/08 10:18:14 WARN ObjectStore: 获取数据库 global_temp 失败,返回 NoSuchObjectException

我应该如何解决这个问题?

【问题讨论】:

  • 你可以尝试在不启用 hive 支持的情况下运行吗?
  • 这些是警告,(可能?)并不重要,您应该仍然可以使用 Spark。例如,[这里]有人在启动 Spark shell 时遇到完全相同的错误,但仍然让一切正常运行。

标签: windows python-3.x apache-spark pycharm pyspark-sql


【解决方案1】:

你在哪里运行这个? Hadoop 安装了吗?似乎 Spark 找不到它:Unable to load native-hadoop library for your platform... using builtin-java classes。您需要确保正确的库可用。在 Spark UI 中,您可以检查上下文。

试试:

from pyspark.sql import SparkSession

spark = SparkSession \
    .builder \
    .appName("Spark Example") \
    .getOrCreate()

应该可以的。

【讨论】:

    猜你喜欢
    • 2022-01-18
    • 2020-03-14
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-04-13
    • 2022-01-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多