在线途游(途游游戏)
学长1
1)Linux篇:
vi命令:
(1)批量替换:
(2)删除4行:
(3)粘贴:
定时任务:脚本start.sh每月1日早六点执行:
2)JAVA 篇:
(1)ArrayList、LinkedList 区别:
(2)HashMap、TreeMap区别:
3)Hadoop 篇:
(1)Hive + Hbase整合表中,多个Hive表能否映射一个Hbase 表。简单说明
(2)列举几个常用的Spark算子:transformation、action:
(3)Flume三大组件是?作用是什么?列举用过的组件?
4)ELK扁:
Elasticsearch官方维护的组件有哪些,分别有什么作用,简单列举:
Elasticsearch中关联查询如何实现?
5)应用篇:
现有登求日志——login:
user_id、record_id、device_id、event_time、ip_addr、app_id
user_id:用户唯一标识;
record_id:日志记录ID,全局唯一;
device:用户设备号,例,mi:7762089
event_tme:登录时间;
ip_addr;登水IP;
app_id:登录的app编号;
说明:日志量2亿条,包含3个月的日志:
新表结构[分区表]:
表名:login_desc
分区:day:日期
列:
user_id:用户唯一标识;
record_id:日志记录ID,全局唯一
device_name:用户设备厂商,例:mi:7762089中mi;
device_id:用户设备编号,例:mi:7762089中7762089为设备编号
event_time:登录时间;
ip_addr:登录IP;
app_id:登录的APP编号;
(1)将这部分日志导入新表,写出数据导入SQL;
(2)由于上传日志时重试的关系,导致数据有重复,可根据record_id去重,请写出去重SQL语句;
(3)统计各APP中,DAU TOP10的手机厂商;
备注:DAU是每日活跃用户数
学长2
整个面试过程和轻松、主要问了一下集群规模,集群类型Apache还是CDH.是否参与过集群的搭建。关于技术方面的较少,主要是问了hadoop的namenode.2NN.hafs的文件 上传等。