史上最全的2023最新大数据口试笔记【200+页，10w+字】

守听 · 2024-10-23 22:18:20

简介：我本硕都是双非盘算机专业，研二开始学习大数据开发的干系知识，从找实习到秋招，投递过100+公司，拿到过10+的offer，包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂，如今已经签约蚂蚁数据研发工程师。依稀还记得刚开始找工作，从零开始准备八股文的时候，心情超级浮躁，不知道该准备哪些内容（大数据组件实在太多了！！！），不知道哪些是重点，在这里感谢一下CSDN平台，提供了大量的面经，让我更快的抓住口试重点。在找工作的整个过程中，有了和口试官无数次交锋的机会，终于总结出了一份最强盛数据口试笔记，非常好用！！！末了，为了回馈CSDN，决定将本身总结的所有口试重点题目开源出来，供各人学习参考！！！
全文共分为八大部门，涵盖大数据开发JAVA盘算机基础数仓理论SQL场景等口试题
第一部门大数据开发

HDFS口试重点

1. HDFS的架构
2. HDFS的读写流程
3.HDFS中，文件为什么以block块的方式存储
4. 小文件过多有什么危害，你知道的办理办法有哪些
5.在NameNode HA中，会出现脑裂问题吗？怎么办理脑裂
6. 简述hadoop压缩和解压缩的框架
7.namenode的安全模式有相识吗
8. Secondary NameNode 相识吗，它的工作机制是怎样的
9. 在上传文件的时候，其中一个 DataNode 突然挂掉了怎么办
10. 在读取文件的时候，其中一个块突然粉碎了怎么办
11.介绍namenode宕机的数据恢复过程
12. NameNode 在启动的时候会做哪些操作
MapReduce口试重点

1. 简述MapReduce整个流程
2. 手写wordcount
3. join原理
4. 文件切片干系问题
5. 环形缓冲区的底层实现
6. 全排序
7. MapReduce实现TopK算法
Yarn口试重点

1. 简述yarn 集群的架构
2. yarn 的任务提交换程是怎样的
3. yarn的资源调理的三种模子
4. 简述Hadoop1.0 2.0 3.0区别
5. 任务的推测实行（spark ui见过）
Zookeeper口试重点

1. 简述leader选举机制
2. 简述什么是CAP理论，zookeeper满足CAP的哪两个
3. zookeeper集群的节点数为什么发起奇数台
4. 简述ZooKeeper的监听原理
5. 请说一下zookeeper的典型应用场景有哪些
6. 客户端向服务端写数据流程
7. zookeeper是如何实现分布式锁的
8. Paxos算法
9. Zab协议
Flume口试重点

1. 简述flume基础架构
2. 请说一下你提到的几种source的不同点
3. 简述flume的事务机制
4. flume采集数据会丢失吗
5. 简述flume的channel selector
Kafka口试重点

1. 为什么要使用kafka
2. 简述kafka的架构
3. 命令行操作
4. 生产者发送流程
5. 简述kafka的分区策略
6. kafka是如何保证数据不丢失和数据不重复
7. kafka中的数据是有序的吗，如何保证有序的呢
8. zookeeper在kafka中的作用有哪些
9. broker工作流程
10. 简述kafka消息的存储机制
11. kafka的数据是放在磁盘上还是内存上，为什么速度会快
12.kafka消费方式
13 kafka消息数据积压，消费者如何进步吞吐量
14. 你知道Kafka 单条日记传输巨细吗
15. Kafka为什么同一个消费者组的消费者不能消费雷同的分区
HBase口试重点题

1. 简述HBase的数据模子
2. HBase和hive的区别
3. HBase的基本架构
4. 简述HBase的读写流程
5. HBase在写过程中的region的split时机
6. HBase 中 compact 用途是什么，什么时候触发，分为哪两种，有什么区别
7. 热点征象怎么产生的，以及办理方法有哪些
8. 说一下HBase 的 rowkey 筹划原则
9. 列族的筹划规则
Hive口试重点

1. 简述hive
2. 简述hive读写文件机制
3. hive和传统数据库之间的区别
4. hive的内部表和外部表的区别
5. hive静态分区和动态分区的区别
6. 内毗连、左外毗连、右外毗连的区别
7. hive的join底层实现
8. Order By和Sort By的区别
9. 行转列和列转行函数
10. grouping_sets、cube和rollup
11. 自界说过UDF、UDTF函数吗
12. hive3的新特性有相识过吗
13. hive小文件过多怎么办
14. Hive优化
15. 常用函数的补充
Spark口试重点

1. 简述hadoop 和 spark 的不同点（为什么spark更快）
2. 谈谈你对RDD的明白
3. 简述spark的shuffle过程
4. spark的作业运行流程是怎么样的
5. spark driver的作用，以及client模式和cluster模式的区别
6. 你知道Application、Job、Stage、Task他们之间的关系吗
7. Spark常见的算子介绍一下（10个以上）
8. 简述map和mapPartitions的区别
9. 你知道重分区的干系算子吗
10. spark目前支持哪几种分区策略
11. 简述groupByKey和reduceByKey的区别
12. 简述reduceByKey、foldByKey、aggregateByKey、combineByKey 的区别
13. 宽依赖和窄依赖之间的区别
14. spark为什么需要RDD持久化，持久化的方式有哪几种，他们之间的区别是什么
15. 简述spark的容错机制
16. 除了RDD，你还相识spark的其他数据结构吗
17. spark调优
18. 谈一谈RDD,DataFrame,DataSet的区别
19. Hive on Spark与SparkSql的区别
20. sparksql的三种join实现
21. 简单介绍下sparkstreaming
22. 你知道sparkstreaming的背压机制吗
23. SparkStreaming有哪几种方式消费Kafka中的数据，它们之间的区别是什么
24. 说一下你知道的DStream转换和输出原语
25. 简述SparkStreaming窗口函数的原理
Flink口试重点题

1. 简单介绍一下Flink
2. Flink和SparkStreaming区别
3. Flink的重启策略你相识吗
4. Flink的运行依赖于hadoop组件吗
5. Flink 集群有哪些脚色？各自有什么作用
6. 简述flink运行流程（基于Yarn）
7. max算子和maxBy算子的区别
8. Connect算子和Union算子的区别
9. Flink的时间语义有哪几种
10. 谈一谈你对watermark的明白
11. flink对于迟到或者乱序数据是怎么处理的
12. flink中，有哪几种类型的状态，你知道状态后端吗
13. Flink是如何做容错的
14. Flink 是如何保证 Exactly-once 语义的
15. flink是如那边理反压的
16. Flink 是如何支持批流一体的
17. 你用过Flink CEP吗，简单介绍一下
第二部门 Java开发

java基础

1. JDK、JRE、JVM三者区别和联系
2. 基本数据类型和引用数据类型的区别
3. 8种基本数据类型、字节巨细
4. 访问修饰符权限
5. java中方法的参数传递机制
6. final关键字
7. static关键字的作用是什么
8. Comparable和Comparator区别
9. Object类有哪些方法
10. java的深拷贝和浅拷贝的区别
11. java中==和equals的区别
12. String和StringBuffer、StringBuilder的区别
13. 简述面向对象三大特征
14. java中方法重载和重写的区别
15. 抽象类和接口的区别
16. 集合之间的继承关系
17. ArrayList和LinkedList区别
18. ArrayList扩容过程
19. HashMap底层实现
20. HashMap扩容过程
21. HashMap中为啥用红黑树不用二叉排序树或者平衡树
22. TreeMap底层实现
23. HashMap和Hashtable的区别？
24. Hashtable怎么保证线程安全的
25. ConcurrentHashMap原理
26. java反射机制
27. 异常体系
28. 常见的IO模子
29. 筹划模式
30. 划一性hash算法
JVM

1. java运行时一个类是什么时候加载的
2. JVM一个类的加载过程
3. 继承时父子类的初始化次序是怎样的
4. 什么是类加载器
5. JVM有哪些类加载器
6. 什么是双亲委派模子
7. JDK为什么要筹划双亲委派模子，有什么好处
8. 可以冲破双亲委派模子吗？如何冲破？
9. 如何自界说类加载器
10. ClassLoader中的loadClass()、findClass()、defineClass()区别
11. 加载一个类采用Class.forName()和ClassLoader.loadClass()有什么区别
12. Tomcat的类加载机制
13. 为什么Tomcat要粉碎双亲委派模子
14. 热加载和热部署，如何本身实现一个热加载
15. java代码到底是如何运行起来的
16. JVM内存结构
17. Java对象如安在堆内存分配
18. JVM堆内存中的对象布局
19. JVM什么情况下会发生堆内存溢出
20. JVM如何判断对象可以被回收
21. java中不同的引用类型
22. JVM堆中新生代的垃圾回收过程
23. JVM对象动态年龄判断是怎么回事
24. 什么是老年代空间分配担保机制
25. 什么情况下对象会进入老年代
26. JVM本机直接内存的特点及作用
27. 几个与JVM内存干系的焦点参数
28. 堆为什么要分为新生代和老年代
29. 新生代为什么要有两个survivor区
30. eden区与survivor区的空间巨细比例为什么是8:1:1
31. JVM中的垃圾回收算法
32. JVM垃圾收集器
33. full gc是什么
并发编程

1. java实现多线程有几种方式
2. 线程池干系内容
3. 线程有哪几种状态
4. sleep，wait，notify，yield和join方法的区别
5. 什么是上下文切换
6. 筹划一个简单的死锁步伐
7. ThreadLocal干系内容
8. 并发编程的三个问题
9. 介绍一下java内存模子
10. synchronized是如何保证三大特性
11. synchronized的特性
12. synchronized 的原理
13. ReentrantLock底层原理
14. synchronized与lock的区别
15. volatile的作用
16. volatile和synchronized的区别
17. CAS介绍一下
18. 乐观锁和悲观锁的区别
19. 锁升级的过程
20. synchronized优化
第三部门盘算机基础

盘算机网络

1. OSI七层模子
2. TCP毗连管理
3. TCP毗连创建为什么需要三次握手
4. TCP毗连释放为什么需要四次挥手
5. TCP毗连释放的第四次握手为什么要等待2MSL
6. TCP是如何做到可靠传输的
7. TCP流量控制
8. TCP拥塞控制
9. 流量控制和拥塞控制的区别
10. TCP和UDP的区别
11. 视频口试中用TCP还是UDP
12. UDP如何实现可靠传输
13. TCP粘包问题以及办理方案
14. 域名解析的过程
15. 浏览器输入URL到显示页面的过程
16. 介绍HTTP
17. HTTP 1.0 和 HTTP 1.1 的主要区别是什么
18. HTTP和HTTPs的区别
19. HTTP是如何保存用户状态的
20. GET和POST的区别
21. 常见的状态码
22. ARP地点解析协议
操作系统

1. 什么是操作系统
2. 什么是系统调用
3. 进程和线程的区别
4. 进程有哪几种状态
5. 进程间的通信方式
6. 进程同步的四种方式
7. 进程的调理算法
8. 什么是死锁以及死锁的四个条件
9. 常见的几种内存管理机制
10. 分页机制和分段机制的共同点和区别
11. 快表和多级页表
12. CPU 寻址相识吗?为什么需要假造地点空间?
13. 什么是假造内存(Virtual Memory)
14. 什么是局部性原理
15. 假造存储器
16. 假造内存的几种实现
17. 页面置换算法
18. 僵尸进程和孤儿进程是什么
数据库

1. 索引是什么
2. mysql中索引的分类有哪些
3. B+树和B树的区别
4. mysql的索引结构
5. 为什么不用二叉树，红黑树，哈希表，B树
6. 聚集索引和非聚集索引的区别
7. 回表查询是什么
8. 覆盖索引是什么
9. 索引下推
10. 主键索引和辅助索引具体是什么
11. 为什么发起用自增id做索引而不用UUID
12. 主键索引使用int和string有啥区别
13. 缺少主键的话mysql怎么处理
14. 选什么字段当索引，索引何时失效
15. 索引合并和复合索引的区别
16. 简述事务
17. 数据库事务并发会引发哪些问题
18. 事务的四个隔离级别有哪些
19. 什么是幻读，如何办理
20. MySQL是如何保证ACID的
21. MySQL支持的锁有哪些
22. MVCC讲一下（怎么实现）
23. 间隙锁讲一下
24. 怎么实现可重复读（读提交）
25. select ... for update
26. 乐观锁与悲观锁，mysql如何实现乐观锁
27. MySQL中常见的几种日记
28. MySQL主从复制的流程
29. 关系型数据库与非关系型数据库的区别
30. 说一说drop、delete和truncate的共同点和区别
31. 数据库3个范式
32. MySQL中char和varchar的区别有哪些
33. MySQL中inner join、left join、right join和full join的区别有哪些
34. MySQL的实行次序
35. having和where的区别
36. MySQL的存储引擎，以及区别
37. 大数据量里的分页查询怎么优化
38. SQL的优化方法
39. MySQL中视图和表的区别
40. 数据完备性约束
41. group by的实现方式
数据结构

1. 链表和数组的区别
2. 静态链表和动态链表的区别
3. 栈和队列的区别
4. 红黑树相识吗
5. 常见的排序算法
6. 图的常见算法
第四部门数仓基础

1.数据仓库是什么
2.数据仓库和数据库有什么区别
3.为什么要对数据仓库分层
4.为什么需要数据建模
5.经典的数据仓库建模方法论有哪些
6.数仓干系的名词术语解释，比如数据域、业务过程、衍生指标
7.派生指标的种类
8.经典数仓分层架构
9.模子筹划的基本原则
10.模子实行的具体步调
11.维度建模有哪几种模子
12.维度建模中表的类型
13.维度表的筹划过程
14.维度表的筹划中有哪些值得注意的地方
15.维度规范化和反规范化如何明白
16.维表整合的两种表现情势
17.如那边理维度的变化
18.事实表筹划的八大原则
19.事实表的筹划过程
20.事实表有哪几种类型
21.多事务事实表如何对事实进行处理
22.单事务事实表和多事务事实表哪种筹划更好
23.周期快照事实表的筹划过程
24.累计快照事实表的筹划过程
25.累计快照事实表的特点
第五部门常考SQL

1.连续问题
2.分组问题
3.间隔连续问题
4.打折日期交叉问题
5.同时在线问题
6.最大连续登岸的最大天数问题
7.留存问题
第六部门场景题

1.1亿个整数中找出最大的10000个数
2.给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限定是4G，让你找出a、b文件共同的url
3.有一个1G巨细的一个文件，里面每一行是一个词，词的巨细不凌驾16字节，内存限定巨细是1M，要求返回频数最高的100个词
4.有一个1G巨细的一个文件，里面每一行是一个词，词的巨细不凌驾16字节，内存限定巨细是1M，要求返回频数最高的100个词
5.外部排序
6.大数量中寻找中位数【网易】
7.大数量中寻找中位数【网易】
8.数据倾斜
第七部门大厂面经合集

美团、蚂蚁、阿里、字节跳动、百度、滴滴、网易、快手、微众、京东、携程
共计100+篇面经
第八部门大厂SQL真题

短视频业务

用户增长业务

电商业务

打车业务

教育业务

内容业务

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！更多信息从访问主页：qidao123.com:ToB企服之家，中国第一个企服评测及商务社交产业平台。

		自动登录	找回密码
密码			立即注册

史上最全的2023最新大数据口试笔记【200+页，10w+字】

0 个回复

快速回复

楼主热帖

标签云