JVM内存管理和垃圾回收

无论对于Java程序员还是大数据研发人员,JVM是必须掌握的技能之一。既是面试中经常问的问题,也是在实际业务中对程序进行调优、排查类似于内存溢出、栈溢出、内存泄漏等问题的关键 ... »

记一次flink入门学习笔记

团队有几个系统数据量偏大,且每天以几万条的数量累增。有一个系统每天需要定时读取数据库,并进行相关的业务逻辑计算,从而获取最新的用户信息,定时任务的整个耗时需要4小时左右。由于定时任务是夜晚执行,目前看来,系统还能抗1年,每天晚上可以把数据处理结束,第二天上班期间可以展示最新的数据。随着数据和业务的增 ... »

解析SparkStreaming和Kafka集成的两种方式

spark streaming是基于微批处理的流式计算引擎,通常是利用spark core或者spark core与spark sql一起来处理数据。在企业实时处理架构中,通常将spark streaming和kafka集成作为整个大数据处理架构的核心环节之一 ... »

为什么你成为不了团队核心成员

一、背景 之前我讲过一个《业务重要?还是技术重要?》,后来收到评论恢复,工作3年以上的同事大多认为业务和技术同等重要。作为一个数据人,我一直想讲业务比数据更重要,但一直怕遭到热衷技术同学的鄙视,这句话一直没敢说。其实,数据人都知道,现在很多大会包括老板,一直都在提“数据赋能价值”。作为员工,我一直对 ... »

Spark如何进行动态资源分配

一、操作场景 对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行的服务,若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源紧张,这就造成了很大的资源浪费和资源不合理的调度。 动态资源调度就是为了解决这种场景,根据当前应用任务的负载 ... »

Spark核心组件通识概览

Apache Spark是一种快速、通用、可扩展、可容错的、基于内存迭代计算的大数据分析引擎。首先强调一点, Spark目前是一个处理数据的计算引擎, 不做存储。首先咱们通过一张图来看看目前Spark生态圈都包括哪些核心组件 ... »

从0到1进行Spark history分析

这是我在平时工作中分析spark程序报错以及性能问题时的一般步骤。当然,首先说明一下,以上分析步骤是基于企业级大数据平台,该平台会抹平很多开发难度,比如会有调度日志(spark-submit日志)、运维平台等加持,减少了开发人员直接接触生成服务器命令行的可能,从物理角度进行了硬控制,提高了安全性。下... ... »

Hadoop框架:NameNode工作机制详解

NameNode运行时元数据需要存放在内存中,同时在磁盘中备份元数据的fsImage,当元数据有更新或者添加元数据时,修改内存中的元数据会把操作记录追加到edits日志文件中,这里不包括查询操作。如果NameNode节点发生故障,可以通过FsImage和Edits的合并,重新把元数据加载到内存中,此... ... »

万万没想到!ModelArts与AppCube组CP了

摘要:嘘,华为云内部都不知道的秘密玩法,我悄悄告诉您! 双"魔"合璧庆双节 ↑开局一张图,故事全靠编 华为云的一站式开发平台ModelArts和应用魔方AppCube居然能玩到一起,这是可能是华为云官方自己也没想到的场景,而我,从8月份开始体验公测应用魔方AppCube以来,一路坎坷,从给AppCu ... »

2020HC大会上,这群人在讨论云原生…

启程 一年一度的华为全联接大会又开启了,伴随着一封来自华为全联接大会的邀请函,我来到了2020华为全联接大会的现场。 理解 今年,华为全联接大会的主题是:共 创 行 业 新 价 值!(NEW VALUE TOGETHER) 可以看到,华为一直以来都坚持共创共赢,不管国际上的风波再大,我自坚持科技创新 ... »

Hadoop框架:HDFS读写机制与API详解

本文源码:GitHub·点这里 || GitEE·点这里 一、读写机制 1、数据写入 客户端访问NameNode请求上传文件; NameNode检查目标文件和目录是否已经存在; NameNode响应客户端是否可以上传; 客户端请求NameNode文件块Block01上传服务位置; NameNode响 ... »

Hadoop框架:HDFS简介与Shell管理命令

本文源码:GitHub·点这里 || GitEE·点这里 一、HDFS基本概述 1、HDFS描述 大数据领域一直面对的两大核心模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具有高度的容错能力,稳定而且可靠。HDFS(Hadoop-Distributed-File-System),它是 ... »

解读华为云原生数据库设计原则,打破传统数据库上云瓶颈

摘要:一个优秀的自研数据库产品应该要具备哪些特性呢? 在云计算技术不断成熟的背景之下,云数据库开始崛起,并因为按需扩展、按需付费等优异特性获得中小企业及互联网客户的青睐。 虽然数据库上云是必然,但并不是万能的。 相较于自建数据库,云数据库无需购买和安装任何软硬件,只需支付服务费用,随取随用,减少了D ... »

关于大数据技术的一点思考

大数据技术在当下时代,已经不算是什么新鲜东西了。但绝大部分同学往往又是没机会接触大数据相关底层技术的,包括我自己。 不过,俗话说没吃过猪肉还没见过猪跑吗?哈哈,今天就来说说我对大数据技术的思考吧,希望会给部分同学解开一些迷惑! 1.什么是大数据? 我们不搞虚的:大数据就是数据量比较大的场景,比如上T ... »

大数据平台Hadoop集群搭建

客户端访问hdfs上的某一文件,首先要向namenode请求文件的元数据信息,然后nn就会告诉客户端,访问的文件在datanode上的位置,然后客户端再依次向datanode请求对应的数据,最后拼接成一个完整的文件;这里需要注意一个概念,datanode存放文件数据是按照文件大小和块大小来切分存放... ... »