以脚本spark_clean_online_action.py、数据集new_sxf_time_count_1781115582.csv为例: 集群节点包括212、216、217、218。需要注意的是:

  • 每台节点有且仅有Python 2.7.5 和Python 2.6.8 两个环境 完成相关依赖安装

1、上传待处理文件到HDFS

2、Pyspark默认调用的是Python 2.7.5 解释器,所以需更改调用版本,每个节点执行: export PYSPARK_PYTHON=/usr/local/python3/bin/python3

3、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client spark_clean_online_action.py

或者不执行2和3,仅执行:

4、spark2-submit --driver-memory 1g --num-executors 4 --executor-cores 10 --master yarn --deploy-mode client --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/local/python3/bin/python3 spark_clean_online_action.py

版本

  • pandas==0.20.3
  • pyspark==2.3.0
  • pyarrow==0.12.1

相关文章:

  • 2021-10-08
  • 2022-12-23
  • 2021-09-26
  • 2021-12-18
  • 2021-06-08
  • 2021-11-15
  • 2021-06-14
  • 2021-11-18
猜你喜欢
  • 2021-09-13
  • 2021-07-19
  • 2021-11-13
  • 2021-09-23
  • 2021-11-17
  • 2021-05-31
相关资源
相似解决方案