在线途游（途游游戏）大数据面试题

在线途游（途游游戏）

在线途游（途游游戏）大数据面试题

1）Linux篇：

vi命令：

（1）批量替换：

（2）删除4行：

（3）粘贴：

定时任务：脚本start.sh每月1日早六点执行：

2）JAVA 篇：

（1）ArrayList、LinkedList 区别：

（2）HashMap、TreeMap区别：

3）Hadoop 篇：

（1）Hive + Hbase整合表中，多个Hive表能否映射一个Hbase 表。简单说明

（2）列举几个常用的Spark算子：transformation、action：

（3）Flume三大组件是？作用是什么？列举用过的组件？

4）ELK扁：

Elasticsearch官方维护的组件有哪些，分别有什么作用，简单列举：

Elasticsearch中关联查询如何实现？

5）应用篇：

现有登求日志——login：

user_id、record_id、device_id、event_time、ip_addr、app_id

user_id：用户唯一标识；

record_id：日志记录ID，全局唯一；

device：用户设备号，例，mi:7762089

event_tme：登录时间；

ip_addr；登水IP；

app_id：登录的app编号；

说明：日志量2亿条，包含3个月的日志：

新表结构[分区表]：

表名：login_desc

分区：day：日期

列：

user_id：用户唯一标识；

record_id：日志记录ID，全局唯一

device_name：用户设备厂商，例：mi:7762089中mi;

device_id：用户设备编号，例：mi:7762089中7762089为设备编号

event_time：登录时间；

ip_addr：登录IP；

app_id：登录的APP编号；

（1）将这部分日志导入新表，写出数据导入SQL；

（2）由于上传日志时重试的关系，导致数据有重复，可根据record_id去重，请写出去重SQL语句；

（3）统计各APP中，DAU TOP10的手机厂商；

备注：DAU是每日活跃用户数

整个面试过程和轻松、主要问了一下集群规模，集群类型Apache还是CDH.是否参与过集群的搭建。关于技术方面的较少，主要是问了hadoop的namenode.2NN.hafs的文件上传等。