spark大数据分析实战案列1学习（lamda架构日志分析流水线）

日志实例格式

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

当数据量较小(10MB,100MB,10GB)可以通过Shell Python单机解决

Linux Shell命令 : cat access.log.10 |awk '{a[$1]++} END {for(b in a) print b"\t"a[b]}

'| sort -k2 -r |head -n 10

日志分析指标：

1：PV

2：UV

3：PVUV （平均每位用户访问页面数）
4：转化率（完成当前事件的用户中出发下一个依赖事件的用户所占的比例）

5：留存率

6：用户属性

Lamda架构

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

Flume flume.conf配置文件

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

启动Flume Agent

# cd flume的安装目录

#nohup bin/flume -ng agent -n agent1 -c conf -f conf/flume-conf.properties &

flume采集的数据收集到HDFS和Kafka上了

Kafka 创建Topic

bin/Kafka-topics.sh -create --zookeeper (zookeeperIP地址,多个用 , 隔开)：2181 -partitions 1 --topic

KafkaTopic(Topic Name)

整合Kafka与SparkStreaming

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

KafkaUtils.createStream()源码

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

为了方便分析将记录转化为PView对象

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

统计过去15s的访客流量,每隔2s计算一次

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

实时百分比统计每个用户中段访问量的页面

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

结果输出到Mysql

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

sparkSQL 离线分析

日志格式

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

查询条件为 select * from pages where rating >1

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

返回的SchemaRDD已经过时相等于DataFrame

ETL(. . .)是指通过SparkSql过滤返回的DataFrame类型的数据

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

在进行实时日志分析的过程中，存在很多分类问题贝叶斯分类是一种常见分类算法

分类算法：从数学角度做一下定义已知类别集合C=(y1,y2 , ... ,yn) 和待分类的物体集合I=(x1,x2 , ... ,xm)

确定映射规则 y=f(x) spark大数据分析实战案列1学习（lamda架构日志分析流水线）

spark大数据分析实战案列1学习（lamda架构日志分析流水线）

filteredSessions.print()

相关文章：

猜你喜欢

相关资源

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode