Apache Hudi 负载类Payload使用案例剖析
在 Hudi 中可以根据业务场景为 Hudi 表配置负载类Payload,它用于在更新期间合并同一记录的两个版本。本文将深入了解有效负载类的用途以及可以使用的所有不同方式。 配置:hoodie.datasource.write.payload.class 注意:对于新的记录合并API ,这些可能会发 ... »
Apache Hudi 流转批 场景实践
背景 在某些业务场景下,我们需要一个标志来衡量hudi数据写入的进度,比如:Flink 实时向 Hudi 表写入数据,然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL,这也就是我们通常说的流转批。 EventTime计 ... »
Apache JMeter 5.5 下载安装及设置中文图文教程
目录 JMeter 下载Apache JMeter 5.5 配置环境变量 查看配置JDK 配置JMeter环境变量 运行JMeter 配置中文版 一次性 永久设置正文 JMeter 下载Apache JMeter 5.5 官方网站:Apache JMeter 官网 »
云原生时代顶流消息中间件Apache Pulsar部署实操-上
本篇先部署Apache Pulsar 最新版本2.11.0的 Locally Standalone,并通过创建Topic、生产消息和消费消息验证基础环境;接着通过二进制也即是所谓裸机部署方式一步步演示如何部署Pulsar的分布式集群,并通过Admin客户端验证基于租户、命名空间一些消息管理和使用简单 »
基于Apache Hudi 构建Serverless实时分析平台
NerdWallet 的使命是为生活中的所有财务决策提供清晰的信息。 这涵盖了一系列不同的主题:从选择合适的信用卡到管理您的支出,到找到最好的个人贷款,再到为您的抵押贷款再融资。 因此,NerdWallet 提供了跨越众多领域的强大功能,例如信用监控和警报、用于跟踪净值和现金流的仪表板、机器学习 ( ... »
开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-下
本篇先通过Kylin对连接条件、维度和度量限制的示例弄清Kylin的使用注意事项,在此基础上研究Kylin查询引擎,并配置spark查询下压实现没有cube的查询;理解Cube的构建优化,通过官方提供RestAPI实现动态灵活查询和cube构建,最后通过集成JDBC的Java代码实现简单查询操作。 »
开源分布式支持超大规模数据分析型数据仓库Apache Kylin实践-上
再下一城又一个实时多维交互式分析数仓利器,了解其特性和架构组成,进一步阐述相关概念和其生态圈;介绍作为开发测试最快捷方式的Docker单机部署;也基于Hadoop环境一步步部署最新v4.0.3二进制并解决遇到的问题,最后通过一个读取hive数据示例介绍kylin创建项目、选择数据源、创建Model、... ... »
apache-zookeeper-3.7.1 安装部署
apache-zookeeper-3.7.1 安装部署 下载地址:https://mirrors.bfsu.edu.cn/apache/zookeeper/ apache-zookeeper-3.7.11.下载直接解压,进入../conf/目录下复制一份zoo_sample.conf, 改名为z »
让Apache Beam在GCP Cloud Dataflow上跑起来
让Apache Beam在GCP Cloud Dataflow上跑起来 简介 在文章《Apache Beam入门及Java SDK开发初体验》中大概讲了Apapche Beam的简单概念和本地运行,本文将讲解如何把代码运行在 »
大数据实时多维OLAP分析数据库Apache Druid入门分享-下
了解Apache Druid的基础概念后,本篇进一步研究其核心架构和核心设计原理部分,了解相关外部依赖,对其数据摄取和查询有一定认识,然后通过搭建分布式集群进一步理解其架构组成,最后用一个示例从HDFS将数据摄取到Druid并演示两种查询方式 @ 目录 架构 核心架构 外部依赖 »
大数据实时多维OLAP分析数据库Apache Druid入门分享-上
Apache Druid是⼀款针对海量数据进⾏⾼性能实时分析OLAP引擎的实时分析型数据库,本篇了解其特征和适用场景,并与其他框架横向对比;最后部署一个最新版本25.0.0单机版演示本地文件摄取入库,并演示基于Json API本地查询和SQL两种查询方式 ... »
Apache IoTDB C# SDK 介绍
最近今天写了IoTDB的三篇相关文章,完成了安装部署和客户端连接:Windows Server上部署IoTDB 集群DBeaver 连接IoTDBDriver将IoTDB注册为Windows服务TsFile 是 IoTDB 的底层数据文件,一种专门为时间序列数据设计的列式文件格式。IoTDB TsF ... »
Apache RocketMQ 5.0 笔记
RocketMQ 5.0:云原生“消息、事件、流”实时数据处理平台,覆盖云边端一体化数据处理场景。 核心特性 云原生:生与云,长与云,无限弹性扩缩,K8s友好 高吞吐:万亿级吞吐保证,同时满足微服务与大数据场景 流处理:提供轻量、高扩展、高性能和丰富功能的流计算引擎 金融级:金融级的稳定性,广泛用于 ... »
如何避免Apache Beanutils属性copy
目录 引言 问:如果是你来写对象间赋值的代码,你会怎么做? 问:我听说工具类最近很卷,你用的哪个啊? 问:为啥会出现严重警告? 性能瓶颈 --> 日志太多也是病 通过 jvisualvm.exe 检测代码性能 问:还有其它好的方式吗?性能好一点的 "四大金刚" 性能统计 Apache Pro »
避免用Apache Beanutils进行属性的copy。why?让我们一起一探究竟
在实际的项目开发中,对象间赋值普遍存在,随着双十一、秒杀等电商过程愈加复杂,数据量也在不断攀升,效率问题,浮出水面。 问:如果是你来写对象间赋值的代码,你会怎么做? 答:想都不用想,直接代码走起来,get、set即可。 问:下图这样? 答:对啊,你怎么能把我的代码放到网上? 问:没,我只是举个例子 »
Apache Kafka 的基本概念
基本概念 主题 Topic topic 是 Kafka 最基础的组织单位,类似于关系数据库中的数据表。做为使用 kafka 的开发者,你最应该考虑的是和 topoc 相关的抽象。创建不同的 topic 保存不同种类的 events,或者通过不同的 topic 保存各种版本经过过滤、转换后的同类 ev ... »
Apache HttpClient 5 笔记: SSL, Proxy 和 Multipart Upload
HttpClient 版本已经到 5.2.1 了. 在版本4中的一些方法已经变成 deprecated, 于是将之前的工具类升级一下, 顺便把中间遇到的问题记录一下 ... »
Apache Kafka 移除 ZK Proposals
Zookeeper 和 KRaft 这里有一篇 Kafka 功能改进的 proposal 原文。要了解移除 ZK 的原因,可以仔细看看该文章。以下是对该文章的翻译。 动机 目前,Kafka 使用 Zookeeper 保存与分区(patitions)、brokers 相关的元数据,以及选举 Kafka ... »
Apache与Tomcat有什么关系和区别
目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ »
【Shiro】Apache Shiro架构之自定义realm
目录 ECharts 异步加载 ECharts 数据可视化在过去几年中取得了巨大进展。开发人员对可视化产品的期望不再是简单的图表创建工具,而是在交互、性能、数据处理等方面有更高的要求。 chart.setOption({ color: [ »