经典总结
-
Hive数仓建表该选用ORC还是Parquet,压缩选LZO还是Snappy?
在数仓中,建议大家除了接口表(从其他数据库导入或者是最后要导出到其他数据库的表),其余表的存储格式与压缩格式保持一致。 我们先来说一下目前Hive表主流的存储格式与压缩方式 文件存…
-
数据仓库命名规范
1. 概述 数据模型是数据管理的分析工具和交流的有力手段;同时,还能够很好地保证数据的一致性,是实现商务智能(Business Intelligence)的重要基础。因此建立、管理…
-
90秒100亿?阿里的这套架构轻松拿下!
1、概述 本文以淘宝作为例子,介绍从一百个并发到千万级并发情况下服务端的架构的演进过程,同时列举出每个演进阶段会遇到的相关技术,让大家对架构的演进有一个整体的认知,文章最后汇总了一…
-
就很牛逼!Redis 还能做搜索引擎 ?
场景 大家如果是做后端开发的,想必都实现过列表查询的接口,当然有的查询条件很简单,一条 SQL 就搞定了,但有的查询条件极其复杂,再加上库表中设计的各种不合理,导致查询接口特别难写…
-
Presto在大数据领域的实践和探索
我是谁?我从哪里来?要到哪里去? 这是官网对Presto的定义,Presto 是由 Facebook 开源的大数据分布式 SQL 查询引擎,适用于交互式分析查询,可支持众多的数据源…
-
Presto在滴滴的探索与实践
导读:Presto在滴滴内部发展三年,已经成为滴滴内部Ad-Hoc和Hive SQL加速的首选引擎。目前服务6K+用户,每天读取2PB ~ 3PB HDFS数据,处理30万亿~35…
-
推荐系统之标签体系
为什么要先介绍标签体系? 一个推荐系统效果好与坏最基本的保障、最基础的是什么?如果让我来回答,一定是标签体系。我这里说的标签主要是针对物料的,对于电商平台来说就是商品;对于音乐平台…
-
干货 | 用户画像在携程商旅的实践
一、用户画像 用户画像这一概念最早源于交互设计领域,由交互设计之父Alan Cooper提出。其指出用户画像是真实用户的虚拟代表,是建立在真实数据之上的目标用户模型。具体而言,在互…
-
一文带你了解越来越火的图数据库究竟是什么?
随着社交、电商、金融、零售、物联网等行业的快速发展,现实社会织起了了一张庞大而复杂的关系网,传统数据库很难处理关系运算。 大数据行业需要处理的数据之间的关系随数据量呈几何级数增长,…
-
ES倒排索引结构设计太牛逼,一切都是为了搜索性能
倒排索引(Inverted Index)也叫反向索引,有反向索引必有正向索引。通俗地来讲,正向索引是通过key找value,反向索引则是通过value找key。 先来回忆一下我们是…