启动 pyspark 默认 local
提交 pyspark-submit /usr/local/python/wordcount.py
关闭Info内容 去配置log4j 将log4j.rootCategary=INFO,console中 INFO改成ERROR
pyspark集群搭建
pyspark集群搭建
遇到问题:pyspark.sql.utils.IllegalArgumentException: ‘java.net.UnknownHostException: master’
解决方案:
解决
RDD还是很好玩的
创建RDD
上面是本地,下面是HDFS,注意路径是否有input ,默认是没有input的
常见RDD转换
filter:
map
map(func)
flatMap(func)
groupByKey
reduceByKey
例子:
到reduce时,才开始真正行动操作。
持久化(多次访问不需要重新加载)
persist() 先标记,待行动操作后开始真正持久化
手动消除,否则占内存
持久化 实例