在线途游(途游游戏)

在线途游(途游游戏)大数据面试题

 

 学长1

1)Linux篇:

vi命令:

(1)批量替换:

(2)删除4行:

(3)粘贴:

定时任务:脚本start.sh每月1日早六点执行:

2)JAVA 篇:

(1)ArrayList、LinkedList 区别:

(2)HashMap、TreeMap区别:

3)Hadoop 篇:

(1)Hive + Hbase整合表中,多个Hive表能否映射一个Hbase 表。简单说明

(2)列举几个常用的Spark算子:transformation、action:

(3)Flume三大组件是?作用是什么?列举用过的组件?

4)ELK扁:

Elasticsearch官方维护的组件有哪些,分别有什么作用,简单列举:

Elasticsearch中关联查询如何实现?

5)应用篇:

现有登求日志——login:

user_id、record_id、device_id、event_time、ip_addr、app_id

user_id:用户唯一标识;

record_id:日志记录ID,全局唯一;

device:用户设备号,例,mi:7762089

event_tme:登录时间;

ip_addr;登水IP;

app_id:登录的app编号;

说明:日志量2亿条,包含3个月的日志:

新表结构[分区表]:

表名:login_desc

分区:day:日期

列:

user_id:用户唯一标识;

record_id:日志记录ID,全局唯一

device_name:用户设备厂商,例:mi:7762089中mi;

device_id:用户设备编号,例:mi:7762089中7762089为设备编号

event_time:登录时间;

ip_addr:登录IP;

app_id:登录的APP编号;

(1)将这部分日志导入新表,写出数据导入SQL;

(2)由于上传日志时重试的关系,导致数据有重复,可根据record_id去重,请写出去重SQL语句;

(3)统计各APP中,DAU TOP10的手机厂商;

备注:DAU是每日活跃用户数

学长2

整个面试过程和轻松、主要问了一下集群规模,集群类型Apache还是CDH.是否参与过集群的搭建。关于技术方面的较少,主要是问了hadoop的namenode.2NN.hafs的文件 上传等。

大数据培训

相关文章: