【发布时间】:2017-09-08 14:32:35
【问题描述】:
我对大数据很陌生,目前我正在学习 Apache Spark。我已经创建了一个独立集群,在同一台机器上有一个主服务器和一个从服务器。 SPARK_WORKER_MEMORY 设置为“1g”,SPARK_LOCAL_IP 指向我的 IP 地址。所以,我写了一个python代码来简单地创建一个SparkSession:
from pyspark.sql import SparkSession
from time import time
def main( ):
start_time = time( )
sparkSession = ( SparkSession.builder
.master( "spark://nilson:7077" )
.appName( "pyclient" )
.config( "spark.executor.memory", "512m" )
.getOrCreate( ) )
elapsed_time = time( ) - start_time
print ("\n\nelapsed time: %.4gs" %elapsed_time)
return
if __name__ == '__main__':
main( )
如您所见,这需要将近 6 秒 here
所以,我的问题是:
真的需要这个时间还是我的环境变量中缺少某些东西?
我还尝试读取一个仅包含两行数据的简单 json 文件。整个过程花了将近 13 秒的时间打开它并打印它的内容。
谢谢。
【问题讨论】:
-
是的,这是意料之中的。有很多后台进程 spark 运行来执行你的代码,设置 root 日志级别为 debug 以打印所有进程日志。
标签: python-3.x apache-spark pyspark bigdata