1、jdk版本1.8的新特性知道多少?以及是否用java开发过大型项目或服务?
2、选择排序和冒泡排序的时间复杂度和空间复杂度?
2、hive调优以及数据倾斜的解决?
3、如果hive使用float(decimal)格式存储,在查询时(>0.2的),0.2的能查出来吗,如何修改?
(字段改成string, 查询时 where 字段> cast(0.2 as float))
https://www.cnblogs.com/zzhangyuhang/p/9778322.html
4、大表join大表产生的问题,以及怎么解决?
3、分区 分桶的区别,为什么要分区?
4、mapJoin的原理?
5、hdfs的文件上传下载、MR的处理流程,reduce阶段的排序规则?
6、map task和reduce task的数量是由什么决定的?
7、HA模式能简单说下吗?
8、jvm的内存机制以及GC?
9、redis的热键问题?怎么解决?
10、hbase的rowkey的设计原则?
11、sqoop迁移数据的原理?
12、你们是怎么使用azkaban的?
13、kafka中生产数据的时候,如何保证写入的容错性?
(0 1 -1的配置)
14、数仓中都做过哪些主题的报表?
15、拉链表简单描述下你们怎么做的吗?
16、中好差评中特征工程怎么创建的?用什么分的词,如何保证分词的重要性?
17、presto是怎么使用的?
18、hive什么版本?kafka什么版本?scala什么版本?flink什么版本?
1、有个很大的数组,如何快速查出某一个元素的索引?
(二分查找)
2、有很大的数据,flink进行过滤去重统计,怎么一个方案?
(布隆过滤器+valueState 或者hypeloglog)
3、spark任务处理的流程,on Yarn任务处理的流程?
4、什么叫DAG、窄宽依赖、划分stage的依据、task数量由什么决定的?
5、spark和mr的比较?
6、RDD持久化有几种方式?
7、特别大的数据,怎么发送到executor中?
8、spark调优都做过哪些方面?
9、Spark 任务为什么会被Yarn kill掉(不是OOM问题)?
10、使用了protoBuffer这样的序列化机制后,在效率上提升了多少?
11、flink和Spark Streaming的区别?架构上的区别呢?
12、flink中checkPoint为什么状态有保存在内存中这样的机制?为什么要开启checkPoint?
https://blog.csdn.net/u010271601/article/details/104933021
13、flink保证Exactly_Once的原理?
14、flink的时间形式和窗口形式有几种?有什么区别,你们用在什么场景下的?
15、flink的背压说下?
16、flink的watermark机制说下,以及怎么解决数据乱序的问题?
https://mp.weixin.qq.com/s/hYPDGVCQb0i6UqWSCA_Gzg
17、实时任务处理过程中的QPS大概是多少?
18、为什么不用异步io查数据库做jion关联?
(数据库压力太大)
19、flink 1.09中的TableFunction介绍下?
20、流式项目做好之后,怎么保证算出来的数据是正确的,是怎么测试的?
(离线加实时两条线都统计,做对比)
21、你们是怎么监控程序运行以及集群间组件的?
(运维做:Zabbix进行二次开发,配合使用Grafana可视化大屏)
上机代码题:
① 输入一串字符串,然后输出连续子串最长的一串,如果子串长度相同,就按照码表中最小的优先
例如:aaabbbbcccccccccddddddddd 输出:ccccccccc
② 一个链表:A->B->C->D->E 0B->E->D->C
③ 手写二分查找法
④ 无序数组,求第K大的数 (sort的底层实现的原理是?快排)
SQL题:
① 共同好友 A->BCD B->ACF 求好友的对数(A->B B->A为一对)
② 年级、科目的TopN
③
t_order订单表
order_id, item_id, create_time, amount(金额)
t_item商品表
item_id, item_name, category
- 最近一个月,销售数量最多的10个商品
- 最近一个月,每个种类里销售数量最多的10个商品

关注 易学在线 公众号
每日更新大量优质技术文档
第一时间获知最新上架课程
与众多大数据猿分享与交流
DOIT.EDU 资料来自网络收集整理,如有侵权请告知