数据仓库(Data Warehouse)
是一个用于存储,分析,陈诉的数据系统,其目标是构建面向分析的集成化数据仓库,分析结果为企业提供决策支持。数据仓库不产生任何数据,其数据来自于外部系统,也不消耗任何数据,其结果开放给各个外部应用利用
数据仓库的特性
面向主题性:以需求分析为导向来构造数据,其存储的数据主要面向数据分析
集成性:数据通常来源于差别的数据源,抽取需求分析相干的数据,对差别数据源抽取的数据转换处置惩罚,将数据加载到数据仓库。
反应汗青厘革:数据仓库记录的数据是汗青数据,这些数据记录了企业从过去某个时点到现在各阶段的信息
相对稳定:数据仓库中的数据反映的是一段时间内的汗青数据,数据修改和删除操作极少。
<hr> 联机事务处置惩罚(OLTP)
做数据处置惩罚,根本特性是前台接收的用户数据可以立刻传送到背景进行处置惩罚,并且可以在很短的时间内给出处置惩罚结果。关系型数据库(RDBMS)是OLTP的典范应用,比方Oracle,Mysql,SQL Server等等。
联机分析处置惩罚(OLAP)
做数据分析,针对某些主题的汗青数据进行多维分析,支持管理决策。数据仓库是OLAP的典范应用。OLTP可以开展分析,但没须要。OLTP系统的核心是面向业务,所有的业务操作可以分为读,写两种操作,一般来说读的压力大于写的压力,如果直接在OTLP情况中开展各种分析,需要考虑如下问题:1 数据分析也是对数据进行读取操作,会让读取压力倍增。2 OLTP仅存储数周或数月的数据。3 数据分散在差别系统差别表中,字段类型不统一
<hr> ETL和ELT
ETL(抽取Extra,转化Transfer,装载Load):数据仓库从各数据源获取数据和在数据仓库内的数据转换和流动都可以为是ETL
ELT:数据在源数据池中提取后会立刻加载到单一集中存储库中,数据在数据仓库系统中进行转换
<hr> Apache Hive
是一款开源数据仓库系统,可以将存储在hadoop文件中的布局化,半布局化数据文件映射为一张数据库表,基于表提供一种类SQL的查询模型,称为HQL。其核心是将HQL转换为MapReduce程序,然后提交到hadoop集群执行。Hive利用HDFS存储数据
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。 |