最新面试题集锦(2)-HIVE-FLINK-调优等

1、jdk版本1.8的新特性知道多少?以及是否用java开发过大型项目或服务?

2、选择排序和冒泡排序的时间复杂度和空间复杂度?

2、hive调优以及数据倾斜的解决?

3、如果hive使用float(decimal)格式存储,在查询时(>0.2的),0.2的能查出来吗,如何修改?
(字段改成string, 查询时 where 字段> cast(0.2 as float))
https://www.cnblogs.com/zzhangyuhang/p/9778322.html

4、大表join大表产生的问题,以及怎么解决?

3、分区 分桶的区别,为什么要分区?

4、mapJoin的原理?

5、hdfs的文件上传下载、MR的处理流程,reduce阶段的排序规则?

6、map task和reduce task的数量是由什么决定的?

7、HA模式能简单说下吗?

8、jvm的内存机制以及GC?

9、redis的热键问题?怎么解决?

10、hbase的rowkey的设计原则?

11、sqoop迁移数据的原理?

12、你们是怎么使用azkaban的?

13、kafka中生产数据的时候,如何保证写入的容错性?
(0 1 -1的配置)

14、数仓中都做过哪些主题的报表?

15、拉链表简单描述下你们怎么做的吗?

16、中好差评中特征工程怎么创建的?用什么分的词,如何保证分词的重要性?

17、presto是怎么使用的?

18、hive什么版本?kafka什么版本?scala什么版本?flink什么版本?

1、有个很大的数组,如何快速查出某一个元素的索引?
(二分查找)

2、有很大的数据,flink进行过滤去重统计,怎么一个方案?
(布隆过滤器+valueState 或者hypeloglog)

3、spark任务处理的流程,on Yarn任务处理的流程?

4、什么叫DAG、窄宽依赖、划分stage的依据、task数量由什么决定的?

5、spark和mr的比较?

6、RDD持久化有几种方式?

7、特别大的数据,怎么发送到executor中?

8、spark调优都做过哪些方面?

9、Spark 任务为什么会被Yarn kill掉(不是OOM问题)?

10、使用了protoBuffer这样的序列化机制后,在效率上提升了多少?

11、flink和Spark Streaming的区别?架构上的区别呢?

12、flink中checkPoint为什么状态有保存在内存中这样的机制?为什么要开启checkPoint?
https://blog.csdn.net/u010271601/article/details/104933021

13、flink保证Exactly_Once的原理?

14、flink的时间形式和窗口形式有几种?有什么区别,你们用在什么场景下的?

15、flink的背压说下?

16、flink的watermark机制说下,以及怎么解决数据乱序的问题?
https://mp.weixin.qq.com/s/hYPDGVCQb0i6UqWSCA_Gzg

17、实时任务处理过程中的QPS大概是多少?

18、为什么不用异步io查数据库做jion关联?
(数据库压力太大)

19、flink 1.09中的TableFunction介绍下?

20、流式项目做好之后,怎么保证算出来的数据是正确的,是怎么测试的?
(离线加实时两条线都统计,做对比)

21、你们是怎么监控程序运行以及集群间组件的?
(运维做:Zabbix进行二次开发,配合使用Grafana可视化大屏)

上机代码题:
① 输入一串字符串,然后输出连续子串最长的一串,如果子串长度相同,就按照码表中最小的优先
例如:aaabbbbcccccccccddddddddd 输出:ccccccccc

② 一个链表:A->B->C->D->E 0B->E->D->C

③ 手写二分查找法
④ 无序数组,求第K大的数 (sort的底层实现的原理是?快排)

SQL题:
① 共同好友 A->BCD B->ACF 求好友的对数(A->B B->A为一对)

② 年级、科目的TopN


t_order订单表
order_id, item_id, create_time, amount(金额)
t_item商品表
item_id, item_name, category

  1. 最近一个月,销售数量最多的10个商品
  2. 最近一个月,每个种类里销售数量最多的10个商品
最新面试题集锦(2)-HIVE-FLINK-调优等

关注 易学在线 公众号

每日更新大量优质技术文档
第一时间获知最新上架课程
与众多大数据猿分享与交流

DOIT.EDU 资料来自网络收集整理,如有侵权请告知

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 4月 10, 2020 11:25 上午
下一篇 4月 11, 2020 5:32 下午

相关推荐

wx