2020大数据面试题真题总结(附答案)

版本 更新时间更新内容
v1.02020-07-01新建
v1.12020-07-18朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康)
v1.22020-08-08朋友面试数据专家提供的数据驱动,spark及flink方面面试题(华为,阿里,小影,拼便宜)
v1.32020-08-22朋友面试数据开发提供的关于hive及数仓方面的题目(美团)
v1.42020-09-06老徐提供蚂蚁阿里微店面试题(数仓方向)及朋友提供数据开发面试题(离线+实时)及软通面试题
v1.52020-09-13新增kafka面试题及答案
v1.62020-10-19新增美团数仓面试题及flink开发面试题
v1.72020-11-16新增某厂大数据开发岗面试题

一.Hadoop

1.hdfs写流程

2.hdfs读流程

3.hdfs的体系结构

4.一个datanode 宕机,怎么一个流程恢复

5.hadoop 的 namenode 宕机,怎么解决

6.namenode对元数据的管理

7.元数据的checkpoint

8.yarn资源调度流程 

9.hadoop中combiner和partition的作用

10.用mapreduce怎么处理数据倾斜问题?

11.shuffle 阶段,你怎么理解的

12.Mapreduce 的 map 数量 和 reduce 数量是由什么决定的 ,怎么配置

13.MapReduce优化经验

14.分别举例什么情况要使用 combiner,什么情况不使用?

15.MR运行流程解析

16.简单描述一下HDFS的系统架构,怎么保证数据安全?

17.在通过客户端向hdfs中写数据的时候,如果某一台机器宕机了,会怎么处理

18.Hadoop优化有哪些方面

19.大量数据求topN(写出mapreduce的实现思路)

20.列出正常工作的hadoop集群中hadoop都分别启动哪些进程以及他们的作用

21.Hadoop总job和Tasks之间的区别是什么?

22.Hadoop高可用HA模式

23.简要描述安装配置一个hadoop集群的步骤

24.fsimage和edit的区别

25.yarn的三大调度策略

26.hadoop的shell命令用的多吗?,说出一些常用的

27.用mr实现用户pv的top10?

28.一个文件只有一行,但是这行有100G大小,mr会不会切分,我们应该怎么解决

29.hdfs HA机制,一台namenode宕机了,joualnode,namenode,edit.log   fsimage的变化

二.Hive

1.大表join小表产生的问题,怎么解决?

2.udf udaf udtf区别

3.hive有哪些保存元数据的方式,个有什么特点。

4.hive内部表和外部表的区别

5.生产环境中为什么建议使用外部表?

6.insert into 和 override write区别?

7.hive的判断函数有哪些

8.简单描述一下HIVE的功能?用hive创建表几种方式?hive表有几种?

9.线上业务每天产生的业务日志(压缩后>=3G),每天需要加载到hive的log表中,将每天产生的业务日志在压缩之后load到hive的log表时,最好使用的压缩算法是哪个,并说明其原因

10.若在hive中建立分区仍不能优化查询效率,建表时如何优化

11.union all和union的区别

12.如何解决hive数据倾斜的问题

13.hive性能优化常用的方法

14.简述delete,drop,truncate的区别

15.order by , sort by , distribute by , cluster by的区别

16.Hive 里边字段的分隔符用的什么?为什么用\t?有遇到过字段里 边有\t 的情况吗,怎么处理的?为什么不用 Hive 默认的分隔符,默认的分隔符是什么?

17.分区分桶的区别,为什么要分区

18.mapjoin的原理

19.在hive的row_number中distribute by 和 partition by的区别 

20.hive开发中遇到什么问题?

21.什么时候使用内部表