数据仓库 (DW) 是一种数字化存储系统,用于连接和协调来自不同数据源的大量数据,旨在为商业智能、报告和分析提供数据支持,并助力企业满足法规要求,支持企业将数据转化为洞察,制定由数据驱动的明智决策。数据仓库会集中存储历史数据和最新数据,为企业提供统一的真实数据源。
一、数据仓库的功能
数据通常是按照一定的频率从运营系统(如ERP和CRM)、数据库以及外部数据源(如合作伙伴系统、物联网设备、天气应用和社交媒体)流入数据仓库。云计算的出现改变了数据存储的传统模式,数据存储位置已经从传统的本地基础架构发展到包括本地环境、私有云和公有云等多种环境。
现代数据仓库能够同时处理结构化和非结构化数据,比如视频、图像文件和传感器数据。一些数据仓库利用集成分析工具和内存数据库技术(将数据集保存在计算机内存中而不是磁盘中)来实现对可信数据的实时访问,帮助企业制定有把握的决策。如果没有数据仓库,企业就难以整合不同来源的数据,也不能确保数据的格式满足分析要求,更无法获得当前和长期的数据视图。
二、数据仓库的优势
- 优化业务分析:借助数据仓库,决策者可以访问来自多个数据源的数据,摆脱根据不完整信息制定决策的情况。
- 加快查询速度:数据仓库的主要目的是提高数据检索和分析的速度。通过数据仓库,企业可以快速查询大量经整合的数据,且几乎不需要IT部门的支持。
- 提高数据质量:将数据加载到数据仓库之前,系统会创建数据清理工单,并将该工单录入工作清单中,对数据进行进一步处理,确保数据转换为统一的格式,从而为分析和决策提供优质、准确的数据。
- 提供历史洞察:数据仓库存储了丰富的历史数据,可以帮助决策者从过去的趋势和挑战中获取知识,并对未来进行预测,持续改善业务。
三、数据仓库存储的内容
20世纪80年代末,数据仓库开始流行,主要用于存储有关人员、产品和交易的信息。这些数据称为结构化数据,具有整洁的结构和格式,便于访问。但是,企业很快又想存储、检索并分析非结构化数据,如文档、图像、视频、电子邮件、社交媒体帖子以及来自机器传感器的原始数据。现代数据仓库能够同时兼容结构化和非结构化数据,通过合并这两类数据,打破二者彼此孤立的局面,企业能够获得全面的宝贵洞察。
四、关键术语
- 数据仓库与数据库:数据库通常存储特定业务领域的数据,而数据仓库存储整个企业的当前数据和历史数据,并为商业智能和分析提供数据支持。数据仓库使用数据库服务器从企业数据库中提取数据,并提供数据建模、数据生命周期管理、数据源集成等附加功能。
- 数据仓库与数据湖:数据仓库主要存储根据特定用途进行格式化的数据,而数据湖则存储未经处理的原始数据,其数据用途尚不明确。数据仓库和数据湖通常相辅相成。
- 数据仓库与数据集市:数据集市是数据仓库的一个子部分,是专门针对某一部门或业务线(如销售、营销或财务)划分出来的。数据仓库是整个企业的数据存储中心,而数据集市则为特定用户群体提供相关数据。
五、数据仓库的核心组件
典型的数据仓库包含4个核心组件:
- 中央数据库:数据库是数据仓库的基础。传统上,这些数据库都是在本地或云端运行的标准关系数据库。但由于大数据的出现,再加上企业需要了解真实的实时绩效,以及RAM的成本大幅下降,内存数据库得到迅速普及。
- 数据集成:企业可以通过各种数据集成方法从源系统中提取数据并进行修改,从而提高一致性,助力快速分析。
- 元数据:元数据是关于数据的数据,规定了数据仓库中数据集的来源、使用、价值和其他特性。
- 数据仓库访问工具:借助这些访问工具,用户可以与数据仓库中的数据进行交互。
六、数据仓库架构
数据仓库架构通常包括数据层、语义层和分析层:
- 数据层:通过ETL工具从数据源中提取数据,然后进行转换并加载到底层。元数据就是在这一层创建,数据集成工具用于对数据进行无缝整合和汇总。
- 语义层:在中间层,联机分析处理(OLAP)和联机事务处理(OLTP)服务器会重组数据,支持快速、复杂的查询和分析。
- 分析层:顶层是前端客户层,部署了数据仓库访问工具,支持用户与数据交互、创建仪表盘和报表等。
七、云数据仓库的优势
- 部署速度快:可以轻松购买无限的计算能力和数据存储空间,并在任何地方快速构建数据仓库。
- 总体拥有成本低:数据仓库即服务(DVaaS)定价模式支持按需购买资源,无需预测长期需求或多支付不必要的费用。
- 灵活性高:可以根据需要灵活扩大或缩小规模。
- 安全性高和灾难恢复力强:在许多情况下,云数据仓库比本地数据仓库更能保证数据安全性,且具备更强的加密能力。
- 采用实时技术:基于内存数据库技术构建,能够极大地提高数据处理速度。
- 引进新技术:支持轻松集成机器学习等新技术。
- 赋能业务用户:为全球员工提供丰富的工具和功能,帮助他们轻松执行数据分析任务。
八、数据仓库卓越实践
构建新的数据仓库或向现有数据仓库添加新应用时,可以参考以下卓越实践:
- 业务卓越实践:定义需要的信息、记录当前数据的位置和质量、组建团队、确定数据仓库应用的优先级、选择实力强大的技术合作伙伴、制定完备的项目计划。
- IT卓越实践:监控绩效和安全性、维护数据质量标准、提供灵活的架构、实现维护等流程的自动化、战略性地使用云技术。
总结
现代数据仓库以及越来越多的云数据仓库将成为企业实现数字化转型的关键因素。它们可以充分利用当前的业务系统,特别是将来自多个内部系统的数据与企业外部新的重要信息整合起来。无论是企业总部还是业务部门,都可以利用现代数据仓库技术提升决策和利润水平。