一份大数据面试题参考指南

来源:Hbase中文社区

作者:Hbase Group

By 暴走大数据

场景描述：一份小伙伴提供的大数据面试题

关键词：面试题大数据

网易校招

说说项目
Spark哪部分用得好，如何调优
Java哪部分了解比较好
聊聊并发，并发实现方法，volatile关键字说说
HashMap的底层原理
为什么要重写hashcode和equals
说说JVM
各个垃圾收集器运用在什么情形
JVM调优
说说io

蚂蚁金服

小文件的合并
MR与Spark的区别
关注哪些名人的博客
对大数据领域有什么自己的见解
平常怎么学习大数据的
StringBuilder与StringBuffer的区别
HashMap与Hashtable的区别
谈谈你对树的理解
数据库索引的实现
jvm的内存模型
jvm的垃圾收集器
jvm的垃圾收集算法
HDFS架构
HDFS读写流程
Hadoop3.0做了哪些改进
谈谈YARN
为什么项目选择使用Spark，你觉得Spark的优点在哪里
了解Flink与Storm嘛，他们与Spark Streaming的区别在哪里
1TB文件，取重复的词，top5指定的资源的场景下，如何快速统计出来

美图面试题

为什么选择美图，你知道美图地点在哪里嘛
介绍下你做的项目吧
数据统一管理平台，我挺感兴趣的，你说说吧
我大概知道是怎么回事了，java web这块你参与开发了吗
你刚刚项目提到了元数据，你能说说hive的元数据管理嘛，对它了解嘛
还是hive，你对hive有哪些原理性了解呢
知道AST、operator tree这些长什么样吗
那你的hive转mr过程是怎么了解的呢？
除了谓词下推，还能说说其它的优化嘛？别说数据倾斜的调优
jvm了解不，说下垃圾收集算法
平常用java和scala语言哪个多点
如果我现在要使用map集合，你觉得哪种适合多线程情况下进行访问
如何去监控线程
Spark 出现OOM，你觉得该怎么进行调优呢？不去动jvm的参数
你觉得join该怎么优化
你对未来的规划是什么？(五年内)
未来是否继续走技术路线
场景题：现在有1个client，2个server，当我动态加入一台机器，或者删除一台机器，或者某台机器宕机了，client该如何去感知到，说下实现思路(不使用Zookeeper),如何通信，说说具体实现?
ThriftServer的HA如何去实现，能说下实现的思路嘛
说下Zookeeper的watch机制是如何实现的嘛？

七牛云面试题

快排
hive和hdfs之间的联系
inode和文件描述符
linux指令如何创建文件
http中header中放入key value 有什么变化
系统调用和库函数区别
http缓冲实现机制
session cookie 区别
进程间通信方式
jsp本质
http请求状状态
get post put remove
数据库join
数据库引擎
hibernate和mybiters区别
jvm垃圾回收
hive和关系型数据库区别
hive实现原理
spark与mr的区别

欢迎点赞+收藏

欢迎分享到朋友圈

一份大数据面试题参考指南

一份大数据面试题参考指南

相关文章：

2021-11-16
2021-08-10
2021-08-03
2021-11-19

猜你喜欢

2021-10-02
2021-06-22
2021-11-27
2021-11-01
2021-09-17
2021-08-28

相关资源

下载 2021-06-06
下载 2021-06-30
下载 2023-04-02

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode