什么是数据仓库

数据仓库是为企业提供聚合,存储,投递,以及提供决策支持能提,数据仓库包含广泛数据并按照主题进行存储并且是在数据仓库流程过程中的一个部分。Willianm(Bill) H. Inmon提出过一个概念:”一个面向主题的,集成的,时间序列变化的以及不易更改的数据的集合为管理者们的决策过程提供支持”。

总体架构上,数据仓库设计人,过程和技术去实现提供一致性,集成化,标准化以及易于理解的决策支持数据的目标。

数据仓库是什么,不是什么

一个数据仓库是一个数据的仓库,数据仓库里的数据是其他数据介质可操作数据的副本,这些数据通常是从多个数据源获取的,并且是对决策支持有用的,而不是最原始的数据。

“数据仓库”,并不是数据库的别称,数据仓库的数据也并不只是由历史数据所构成,数据仓库里的数据也包含分析数据和报告数据,也可以交易数据,(些数据是有应用系统所管理的数据,并不存在于数据仓库之中)。

数据仓库架构组件

数据仓库的技术架构包括:数据源,ETL,和数据访问接口。

数据仓库架构组件

数据仓库架构组件

数据仓库技术栈列表:

数据仓库技术栈列表

基础架构的基础设施

数据仓库技术栈是构建在硬件和软件框架之上的。

基础架构的基础设施

使用数据仓库应用或者专用的数据库基础设施来帮助我们构建数据仓库,这些技术上旨在提供高性能。这些数据仓库应用以最优的形式提供数据库服务,使用MMP架构,它们包括具有一些特有功能的紧密耦合的计算机,以及可访问的存储设备进行并行执行,专有的功能包含:系统控制,数据库访问,数据加载,数据备份。

数据仓库应用有超高的性能,他们有着比传统数据库高100倍的性能。

数据架构

数据架构是企业数据管理的蓝图,并且有一些概念,这些概念是:数据治理,数据质量,ILM,数据框架,元数据和含义,主要数据,最后是商业智能.

数据架构
数据架构

数据流

该图显示了数据如何在数据仓库系统中流动。数据首先来自数据源,例如库存系统(存储在数据仓库和操作数据存储中的系统)。数据存储被格式化以公开数据市场中的数据,然后使用BI和分析工具访问这些数据市场。

数据流

数据

数据是我们获得理解的原材料。它是数据建模、统计和数据挖掘中的关键元素。它是金字塔的基础。

数据的特征:

数据的特征

数据监控

三个层次的数据建模是按顺序来的:

概念数据模型——使用实体、属性和关系描述问题的高级模型。

逻辑数据模型——用业务术语描述解决方案的详细数据模型,它还使用实体、属性和关系。

物理数据模型——定义数据库对象(如表和列)的详细数据模型。需要这个模型来实现数据库中的模型并生成一个有效的解决方案。

实体

实体是任何实体的核心部分概念和逻辑数据模型。实体是企业感兴趣的对象可以是一个人,组织、地点,活动,事件,抽象,或者想法。实体在数据模型中表示为矩形。把实体看作单数名词。

实体

属性

属性是一个实体的特征。属性被归类为主键、外键、备用键和非键,如图所示。

属性

关系

关系是实体之间的联系。通过在相关实体之间划一条线来描绘这种关系。下图描述了两个实体——客户和订单——它们之间的关系。

关系

基数

基数指定可能参与给定关系的实体的数量,表示为一对一、一对多或多对多,如下例所示:

基数 

基数被表示为最小和最大值。在下面的第一个例子中,一个实例的实体的可能有一个实例实体B,B和实体必须有一个且只有一个实例的指定实体A .基数将符号的关系线附近的两个实体的关系。

在第二种情况下,实体A可能有一个或多个实体B的实例,而实体B必须有一个且只有一个实体A的实例。

基数案例

规范化数据

规范化是一种组织的数据建模技术。将数据分解到最低水平,即,以避免重复。该方法用于设计数据仓库系统的原子数据仓库部分。以下是埃德加·f·科德(Edgar F. Codd)的前三个规范化级别。还有其他标准化级别,您可以在这里了解更多。当关系数据库达到第三个范式时,它被认为是规范化的。

原子数据仓库

原子数据仓库(ADW)是一个将数据分解为低级组件以准备输出到数据集市的区域。ADW的设计采用了标准化和快速载入和记录历史的方法。

ADW被组织成具有逻辑键和支持跟踪更改和快速加载/插入的可变数据的不变数据。使用一个整数作为主代理键。然后添加有效日期来跟踪更改。

原子数据仓库

关联实体

使用具有有效日期和过期日期的关联实体跟踪实体之间的关系历史。

关联实体

原子DW特有属性

使用专门的属性来提高ADW的效率和有效性。使用ADW_前缀标识这些属性。

原子DW特有属性

多维数据库

维度数据库是为查询和分析优化的数据库,不像原子数据仓库那样进行规范化。它由事实和维度表组成,其中每个事实都连接到一个或多个维度。

销售订单事实表:

日历日期、产品、客户、地理位置和销售组织的维度将销售订单事实放入上下文中。这个星型模式支持以立方体的方式查看订单,支持根据客户、时间和产品进行切片和切割。

多维数据库

事实

事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每个事实包括关于事实(销售额,销售量,成本,毛利,毛利率等)的基本信息,并且与维度相关。在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。

一个事实所包含的内容有表名,主键,和度量。

事实

事件事实例子:

事件事实记录单个事件,如金融交易、销售、投诉或发货。

事实案例

快照事实:

快照事实捕获项目在某个时间点的状态,例如总账余额或库存水平。

快照事实

累积快照的事实:

累积快照事实将累积的数据(如今年迄今的数据量)添加到快照事实中。

快照事实

聚合的事实:

汇总事实提供汇总信息,比如一段时间内的总账,或者每个商店每月的每个产品的投诉。

聚合事实

更多的事实:

无事实的事实跟踪维度之间的联系,而不是数量度量。例如里程,活动出席和促销活动。

事实

维度

维度是一个数据库表,其中包含识别和分类的属性。这些属性作为报告的标签和汇总的数据点。在维度模型中,维度围绕并限定事实。

日期和时间维度:

日期维度支持趋势分析,包括日期及其相关的周、月、季和年。时间维度用于分析每日业务量。

日期和时间维度

多维角色:

一个维度可以扮演多个角色。日期维度可以扮演快照日期、项目开始日期和项目结束日期的角色。

多维角色

退化维度:

退化维度有一个维度键,没有维度表。示例包括交易号、发货号和订单号。

退化维度

数据集成

数据集成是一种移动数据或在数据存储之间提供数据的技术。数据集成过程可以包括提取、移动、验证、清理、转换、标准化和加载。

ETL:

在数据集成的ETL模式中,数据从数据源中提取,然后在传输到staging数据库时进行转换。然后将数据加载到数据仓库中。ETL非常适合批量数据的批处理。

数据集成

ELT:

在数据集成的ELT模式中,数据从数据源中提取,并在不进行转换的情况下加载到staging中。在此之后,数据将在staging中进行转换,然后加载到数据仓库中。

数据集成

这种类型的集成以及使用视图/查询作为转换部分将帮助数据更快地为最终用户所用。

CDC:

数据集成的CDC模式在事件处理中非常强大。包含数据库更改记录的数据库日志将在登台时实时复制。然后将这些信息转换并加载到数据仓库

数据集成

CDC是支持实时数据仓库的一项重要技术。

实际案例

中国电信电子渠道深度运营–数据仓库篇

为运营商提供专业、高水平的流量经营服务,包括客户洞察细分研究、流量业务常态营销支撑、运营监控分析、客户挖掘建模、培训等一系列服务,网舟科技以客户需求为牵引,帮助运营商提升流量业务精细化运营能力和互联营销能力。

网舟科技提供基于精准用户行为分析的舆情监控(行业洞察)、竞争对手分析、精准营销等服务,为企业进行营销决策提供数据支撑。

维度:

页面地址,访问时间戳,屏幕分辨率,来源类型,来源类型,关键字搜索,搜索引擎,城市代码,产品信息,浏览器,操作系统,新老访客,页面名称。

通过对运营商业务的深入分析我们根据几个主题进行维度的建模,例如时间序列,产品相关维度,用户基本行为维度,以及广告推广和外链等几大维度进行对业务的深入分析。

量度:

浏览量,访客,访问量,跳出率,退出率,平均逗留时长,实际订单,转化率,点进次数,搜索次数,搜索退出率,搜索点击结果率,搜索无结果率,搜索无结果次数

我们将用户所关心的主题将主题包含的维度和量度进行构建数据立方体,用户和业务分析人员可以通过不同层面进行数据挖掘和探索来提高获取数据信息中所体现的数据价值。

数据报告:

中国电信电子渠道深度运营–数据仓库
中国电信电子渠道深度运营–数据仓库