面经大数据开发实习深信服科技

面试时间：2019年6月

深信服的效率是很快的，前一天晚上5点钟通知笔试，在7点就要进行笔试，9点笔试完11点钟通知第二天中午11点面试

所以我做完也没有来得及有所准备，就得去面试了

面经如下：

1.namenode和secondarynamenode的工作机制

2.谈谈对flume的理解，

flume有什么缺点，怎么去优化他，

如果和kafka整合应该kadka在前还是在后

3.mapreduce有什么缺点，怎么去优化？

mapreduce与spark的对比，各有什么优缺点

4.谈谈对storm的了解

5.hbase的了解，
怎么存储数据，
数据读写流程，
与关系型数据库的区别，
为什么列式存储能多一列或者少一列

6.zookeeper的工作原理，怎么实现高可靠

7.azkaban的工作原理

8.jvm调优

9.gc

10.锁机制，同步锁和乐观锁

11.一个进程切换到另外一个进程，要保存前一个进程的什么？

12.如果一个map较慢，是什么原因？
怎么排查，怎么解决

13.三种join方式

14.hdfs适合存大文件还是小文件，为什么？

16.算法题
（1）有n级楼梯，可以一次跳一级，也可以一次跳两级，一共有多少种跳法
（2）一篇文章，找出词频前五点多单词，不能用mapreduce

17.Linux系统较卡顿，怎么去排查原因？

18.项目是分布式环境吗？搭建环境时出现
过什么问题？

19.有没有对hive进行过调优，有没有修改过源码？

20.TCP的三次握手