-
置顶 2020大数据面试题真题总结(附答案)
版本 更新时间 更新内容 v1.0 2020-07-01 新建 v1.1 2020-07-18 朋友面试大数据工程师提供的关于架构及数仓方面的题目(智云健康) v1.2 2020-…
-
Hive数仓建表该选用ORC还是Parquet,压缩选LZO还是Snappy?
在数仓中,建议大家除了接口表(从其他数据库导入或者是最后要导出到其他数据库的表),其余表的存储格式与压缩格式保持一致。 我们先来说一下目前Hive表主流的存储格式与压缩方式 文件存…
-
压缩格式gzip/snappy/lzo/bzip2 比较与总结
1 压缩介绍 常用的几种压缩格式:lzo,gzip,snappy,bzip2,我们简单做一下对比,方便我们在实际场景中选择不同的压缩格式。 支持特性对比: 压缩格式 codec类 …
-
Datayi项目课,版本更新记录
版本:线下班20期 版本 更新点 涉及视频 线下班20期 idmapping方案1,引入redis2,生成全局唯一自增的整数来作为GUID *** day03 ***03.idma…
-
数据仓库命名规范
1. 概述 数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(Business Intelligence)的重要基础。因此建立、管理…
-
12.Flink窗口算子(一)
1.1 Window Assinger 当调用window或windowAll方法时,所传入的参数就是Window Assigner(窗口分配器),其作用是决定划分什么样…
-
11.Flink窗口的分类
1 Flink的Window可以分成两类: GlobalWindow:按照指定的数据条数生成一个Window,与时间无关。 TimeWindow:按照时间生成Window,可以根据…
-
10.Flink的窗口和时间类型
1 窗口运算 流式计算是一种被设计用于处理无限数据集的数据计算引擎,所谓无限数据集是指一种源源不断的数据流抽象成的集合。而Window就是一种将无限数据集切分成多个有限数…
-
09.Flink的Transformation(三)
1 split拆分(DataStream → SplitStream) 该方法是将一个DataStream中的数据流打上不同的标签,逻辑的拆分成多个不同类型的流,返回一个新的Spl…
-
08.Flink的Transformation(二)
1 keyBy按key分组(DataStream → KeyedStream) 下面的例子是将一行字符串进行flatMap切分成多个单词,然后将单词和1放入到Tuple2…