巧达科技
(1)二分法 快排
(2)一个大的文件 实现不同的key进行不同的操作(数据处理分析)不用现成的框架 使用多线程的思想实现
(3)一个文件一个线程读 多个线程写 阻塞队列
(4)Hadoop保存文件的特性 :分片 备份
(5)spark的原理
(6)宽窄依赖
(7)shuffle 什么时候进行
(8)spark开发遇到的困难
(9)集群部署
(10)如何处理数据倾斜
(11)一个线程负责读,假设读的速度很快,然后交给其他线程,组成阻塞式消息队列(类似于Kafka)
(12)一般队列和阻塞式队列的区别