解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一 ... »

Spark核心组件通识概览

Apache Spark是一种快速、通用、可扩展、可容错的、基于内存迭代计算的大数据分析引擎。首先强调一点, Spark目前是一个处理数据的计算引擎, 不做存储。首先咱们通过一张图来看看目前Spark生态圈都包括哪些核心组件 ... »

从0到1进行Spark history分析

这是我在平时工作中分析spark程序报错以及性能问题时的一般步骤。当然,首先说明一下,以上分析步骤是基于企业级大数据平台,该平台会抹平很多开发难度,比如会有调度日志(spark-submit日志)、运维平台等加持,减少了开发人员直接接触生成服务器命令行的可能,从物理角度进行了硬控制,提高了安全性。下... ... »

关于大数据技术的一点思考

大数据技术在当下时代,已经不算是什么新鲜东西了。但绝大部分同学往往又是没机会接触大数据相关底层技术的,包括我自己。 不过,俗话说没吃过猪肉还没见过猪跑吗?哈哈,今天就来说说我对大数据技术的思考吧,希望会给部分同学解开一些迷惑! 1.什么是大数据? 我们不搞虚的:大数据就是数据量比较大的场景,比如上T ... »

来自马铁大神的Spark10年回忆录

本篇分享来自Martei在Spark AI Submit 2020的开场分享。 马铁是谁 什么!你不知道马铁是谁?Martei Zaharia(说实话,不知道谁给起的中文名字叫马铁,跟着叫就是了),现任Databricks的CTO,也许Databricks你也不是很熟,Spark总是听过的吧?可以说 ... »

Spark 3.0 新特性 之 自适应查询与分区动态裁剪

Spark憋了一年半的大招后,发布了3.0版本,新特性主要与Spark SQL和Python相关。这也恰恰说明了大数据方向的两大核心:BI与AI。下面是本次发布的主要特性,包括性能、API、生态升级、数据源、SQL兼容、监控和调试等方面的升级。 本次主要整理了性能方面的优化,包括了自适应查询与动态分 ... »

Spark3.0分布,Structured Streaming UI登场

近日,在Spark开源十周年之际,Spark3.0发布了,这个版本大家也是期盼已久。登录Spark官网,最新的版本已经是3.0。而且不出意外,对于Structured Streaming进行了再一次的加强,这样Spark和Flink在实时计算领域的竞争,恐怕会愈演愈烈。 Spark 3.0 主要的新 ... »

Spark如何与深度学习框架协作,处理非结构化数据

随着大数据和AI业务的不断融合,大数据分析和处理过程中,通过深度学习技术对非结构化数据(如图片、音频、文本)进行大数据处理的业务场景越来越多。本文会介绍Spark如何与深度学习框架进行协同工作,在大数据的处理过程利用深度学习框架对非结构化数据进行处理。 Spark介绍 Spark是大规模数据处理的事 ... »

airflow的安装和使用 - 完全版

之前试用了azkaban一小段时间,虽然上手快速方便,但是功能还是太简单,不够灵活。 Airflow使用代码来管理任务,这样应该是最灵活的,决定试一下。 我是python零基础,在使用airflow的过程中可谓吃尽了苦头。。好歹最后实现所有要求,两三周的时间没有白费 看完这篇文章,可以达到如下目标: ... »

spark是怎么从RDD升级到DataFrame的?

本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是spark专题的第五篇,我们来看看DataFrame。 用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生,如果没做过也没有关系,我们简单来介绍一下。DataFrame翻译过来的意思 ... »

Spark 系列(十五)—— Spark Streaming 整合 Flume

一、简介 Apache Flume 是一个分布式,高可用的数据收集系统,可以从不同的数据源收集数据,经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。 二、推送式方法 在推送式方法 (Flume style Push based ... »

Spark 系列(十四)—— Spark Streaming 基本操作

一、案例引入 这里先引入一个基本的案例来演示流的创建:获取指定端口上的数据并进行词频统计。项目依赖和代码实现如下: 使用本地模式启动 Spark 程序,然后使用 打开端口并输入测试数据: 此时控制台输出如下,可以看到已经接收到数据并按行进行了词频统计。 下面针对示例代码进行讲解: 3.1 Strea ... »

Spark 系列(十)—— Spark SQL 外部数据源

一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain text files 注:以下所有测试文件均可从 ... »