数仓是什么?

数仓是什么?为了分析数据!

数仓(Data Warehouse)是数据仓库的简称,是一种面向主题的、集成的、时变的、非易失的数据集合,用于支持管理决策。

数仓通常由数据仓库、数据集市和数据湖等组件组成,它们共同构成了一个完整的数据架构。数据仓库用于存储和分析历史数据,数据集市用于存储和分析特定主题的数据,数据湖则用于存储和分析所有类型的数据。

数仓的目的是提供一种统一的数据访问方式,使得企业能够方便地获取所需的数据,并进行分析和决策。

数仓通常采用关系型数据库(如Oracle、SQL Server等)来存储和管理数据,同时也支持使用Hadoop等大数据技术来处理和分析数据。

数仓的构建和维护需要使用相应的工具和平台,如ETL工具(如Sqoop、Kettle等)来提取、转换和加载数据,数据仓库管理和分析平台(如Hive、Impala等)来管理和分析数据。

数仓的构建和维护需要遵循一定的规范和标准,如数据模型、数据格式、数据质量等。

数仓的构建和维护需要使用相应的工具和平台,如ETL工具(如Sqoop、Kettle等)来提取、转换和加载数据,数据仓库管理和分析平台(如Hive、Impala等)来管理和分析数据。

数仓的构建和维护需要遵循一定的规范和标准,如数据模型、数据格式、数据质量等。

为什么要数仓?

在哪里进行数据分析?数据库?
业务操作分为读操作和写操作,但是读操作==的压力大于写操作。
目的:数据分析与业务解耦合,分析支持决策但不影响业务。
OLTP(On-Line Transaction Processing):联机事务处理,面向业务操作,对事务的响应时间有要求,对数据的实时性要求较高。
举例:针对具体业务再数据库联机的日常操作,对少量数据的增删改查。关系型数据库作为数据管理的主要手段。

OLAP(On-Line Analytical):联机分析处理,面向数据分析,对事务的响应时间没有要求,对数据的实时性要求较低。
举例:针对某些主题的历史数据进行复杂的多维分析。数据仓库是OLAP系统的典型事例。

数仓分层架构

操作型数据层(ODS)、数据仓库层(DW)、数据集市层(DM)、数据应用层(DA)。

ODS:操作型数据层,用于存储原始数据,通常采用关系型数据库(如Oracle、SQL Server等)来存储和管理数据。

DW:数据仓库层,用于存储经过清洗、转换和整合后的数据,通常采用关系型数据库(如Oracle、SQL Server等)来存储和管理数据。

DM:数据集市层,用于存储特定主题的数据,通常采用关系型数据库(如Oracle、SQL Server等)来存储和管理数据。

DA:数据应用层,用于提供数据分析和决策支持,通常采用数据仓库管理和分析平台(如Hive、Impala等)来管理和分析数据。

分层的好处是:清洗数据结构、数据血缘追踪、减少重复开发(如查询接口)、屏蔽原始数据的异常

ETL和ELT

ETL(Extract-Transform-Load):提取、转换和加载,用于将数据从源系统提取出来,经过清洗、转换和整合后加载到目标系统。

ELT(Extract-Load-Transform):提取、加载和转换,用于将数据从源系统提取出来,直接加载到目标系统,然后再进行转换。

数仓的构建

  1. 数据收集:从业务系统中收集数据,包括原始数据和业务日志。

数仓是什么?
https://zzy-1128.github.io/2024/05/06/数仓是什么?/
Author
智勇爱学习
Posted on
May 6, 2024
Licensed under