数据采集组件:Flume基础用法和Kafka集成

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据; 特点:分布式、高可用、基于流式架构,通常用来收集、聚合、搬运不同数据源的大量日志到数据仓库。 ... »

基于业务和平台理解数字营销概念

数字营销产业链上最核心的角色就是就是受众人群,即浏览广告的用户,之所以称为受众人群,通常会把用户按照画像特点基于标签进行人群分类,根据广告的需求,可能是根据不同年龄段,地域,消费能力等各种标签。数字营销的基本就是广告主把营销内容传递到潜在的消费者,并触发用户交易动作。 ... »

数据仓库组件:HBase集群环境搭建和应用案例

HBase是一种分布式、可扩展、支持海量结构化数据存储的NoSQL数据库。HBase在Hadoop之上提供了类似于Bigtable的能力,基于列存储模式的而不是基于行的模式。存储数据特点:非结构化或者松散的半结构化数据,存储大表自然是需要具备水平扩展的能力,基于服务集群处理海量庞大数据。 ... »

标签管理体系之业务应用

基于标签对业务进行精准分析,从而影响运营思路和产品迭代的节奏,进而带来非常高的商业价值,但是这里需要对标签的质量进行评估,假设标签的覆盖场景非常低,而且准确度低,同样也会反向影响业务。 ... »

数据仓库组件:Hive环境搭建和基础用法

Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储的组件,Hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行,使用成本低,可以通过类... ... »

数据全景洞察概念简介

智能数字时代,数据不论形态、格式和类型,已经迅速成为企业最有战略意义的资产;数据资产已经成为了可以形成业务洞察及优势的战略资源,数据的体量、多样性和复杂性也正以指数级增长。就像其他重要的企业资产,数据需要适当的管理和治理水平,以确保它的潜在价值得到认识和发挥作用。 ... »

Hadoop框架:HDFS高可用环境配置

在单点或者少数节点故障的情况下,集群还可以正常的提供服务,HDFS高可用机制可以通过配置Active/Standby两个NameNodes节点实现在集群中对NameNode的热备来消除单节点故障问题,如果单个节点出现故障,可通过该方式将NameNode快速切换到另外一个节点上。 ... »