spark

Spark SQL小文件问题处理

目录 1.1、小文件危害 1.2、产生小文件过多的原因 1.3、如何解决这种小文件的问题呢? 1.3.1、调优参数 1.1、小文件危害 大量的小文件会影响Hadoop集群管理或者Spark在处理数据时的稳定性: 1.Spark SQL写Hive或者直接写入HDFS,过多的小文件会对Na »

大数据之Spark基础环境

目录 前言 一、Spark概述 (一)Spark是什么 (二)Spark的四大特点 (三)Spark的风雨十年 (四)Spark框架模块 (五)Spark通信框架 总结 前言 本篇文章开始介绍Spark基础知识,包括Spark诞生的背景,应用环境以及入门案例等,还是Spark学习之旅 »

Hive 和 Spark 分区策略剖析

随着技术的不断的发展,大数据领域对于海量数据的存储和处理的技术框架越来越多。在离线数据处理生态系统最具代表性的分布式处理引擎当属Hive和Spark,它们在分区策略方面有着一些相似之处,但也存在一些不同之处。 作者:vivo 互联网搜索团队- Deng Jie 随着技术的不断的发展, »

vivotech

一次spark任务提交参数的优化

起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于yarn集群 参数 spark任务提交参数中最重要的几个:spark-submit --master yarn --driver-cores 1 »

eryuan

一次spark任务提交参数的优化

起因 新接触一个spark集群,明明集群资源(core,内存)还有剩余,但是提交的任务却申请不到资源。 分析 环境 spark 2.2.0 基于yarn集群 参数 spark任务提交参数中最重要的几个:spark-submit --master yarn --driver-cores 1 »

eryuan

spark中使用groupByKey进行分组排序的示例代码

任务需求:已知RDD[(query:String, item_id:String, imp:Int, clk:Int)],要求找到每个query对应的点击最多的前2个item_id,即:按照query分组,并按照clk降序排序,每组取前两个。 例如: (连衣裙,1234,  22,  13) »

spark中使用groupByKey进行分组排序的示例代码

任务需求:已知RDD[(query:String, item_id:String, imp:Int, clk:Int)],要求找到每个query对应的点击最多的前2个item_id,即:按照query分组,并按照clk降序排序,每组取前两个。 例如: (连衣裙,1234,  22,  13) »

Spark内存调优指南

目录 引言 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 RDD序列化存储 GC的调整 测量GC的影响 高级GC调优 其他考虑因素 并行度水平 输入路径上的并行Listing Reduce任务的内存使用情况 广播大型变量 数据位置 小结 引言 本文是关于Sp »

Spark内存调优指南

目录 引言 数据序列化 内存调优 内存管理概述 确定内存消耗 调整数据结构 RDD序列化存储 GC的调整 测量GC的影响 高级GC调优 其他考虑因素 并行度水平 输入路径上的并行Listing Reduce任务的内存使用情况 广播大型变量 数据位置 小结 引言 本文是关于Sp »

SpringBoot对接Spark过程详解

本文主要介绍 SpringBoot 与 Spark 如何对接,具体使用可以参考文章 SpringBoot 使用 Spark pom 文件添加 maven 依赖 spark-core:spark 的核心库,如:SparkConf spark-sql:spark 的 sql 库,如:sparkSe »

SpringBoot对接Spark过程详解

本文主要介绍 SpringBoot 与 Spark 如何对接,具体使用可以参考文章 SpringBoot 使用 Spark pom 文件添加 maven 依赖 spark-core:spark 的核心库,如:SparkConf spark-sql:spark 的 sql 库,如:sparkSe »

Spark系列 - (3) Spark SQL

3. Spark SQL 3.1 Hive、Shark和Sparksql Hive:Hadoop刚开始出来的时候,使用的是hadoop自带的分布式计算系统 MapReduce,但是MapReduce的使用难度较大,所以就开发了Hive。Hive的出现解决了MapReduce的使用难度较大的问题,Hi ... »

way2backend

云小课|MRS数据分析-通过Spark Streaming作业消费Kafka数据

阅识风云是华为云信息大咖,擅长将复杂信息多元化呈现,其出品的一张图(云图说)、深入浅出的博文(云小课)或短视频(云视厅)总有一款能让您快速上手华为云。更多精彩内容请单击此处。 摘要:Spark Streaming是一种构建在Spark上的实时计算框架,扩展了Spark处理大规模流式数据的能力。本文介 ... »

Spark 集群执行任务失败的故障处理方法

目录 昨天(2023-02-22)开始发现公司 Spark 集群上出现一些任务执行时间过长最后失败,具体表现包括: 大量执行失败的 Task,最终任务也是失败的 在 Spark Master 管理界面上看到任务的 Driver 地址不是真实 IP 地址,而是一个叫做“host.contai »

spark编程python实例解读

目录 spark编程python实例 1.pyspark在jupyter notebook中开发,测试,提交 2.在shell中提交应用 3.遇到的错误及解决 4.源码 总结 spark编程python实例 ValueError: Cannot run multiple SparkC »

《关于我因为flink成为spark源码贡献者这件小事》

各位读者老爷请放下手上的板砖,我可真没有标题党,且容老弟慢慢道来。 spark和flink本身相信我不用做过多的介绍,后端同学不管搞没搞过大数据,应该都多多少少听过。 如果没听过,简单说,spark和flink之于大数据,就好比vue和react之于前端,就好比spring家族之于java。 从20 ... »

eryuan

spark dataframe全局排序id与分组后保留最大值行

目录 正文 (1) 得到 spark dataframe 全局排序ID (2)分组后保留最大值行 正文 作为一个算法工程师,日常学习和工作中,不光要 训练模型关注效果 ,更多的 时间 是在 准备样本数据与分析数据 等,而这些过程 都与 大数据 spark和hadoop生态 的若干工 »

Spark SQL的自定义函数UDF使用

目录 Spark_SQL的UDF使用 UDF简单使用 Spark_SQL的UDF使用 用户自定义函数,也叫UDF,可以让我们使用Python/Java/Scala注册自定义函数,并在SQL中调用。这种方法很常用,通常用来给机构内的SQL用户们提供高级功能支持,这样这些用户就可以直接调用注册 »

微软外服札记④——Spark中的那些坑...

Spark中的那些坑 Spark中的那些坑 前言 读取配置文件 时区陷阱 怪异的DayOfWeek substring陷阱 IP地址解析 枚举的数值 posexplode函数 为什么我的程序运行那么慢?慎用Count()和Show() 为什么我的程序运行那么慢?(2)优化、优化 其它 题外话 前言 ... »

thanks