数据无处不在。就好像我们被数据包围了一样。即使有这么多可用的数据,我们也无法充分利用它。这可能是由于对海量数据的理解不足,或者缺乏文档,或者无法找到对我们来说重要的数据。
然后得出结论,跨企业集成数据、存储和分析数据非常重要。据了解,历史数据对目前的数据理解非常重要。数据摘要对组织来说仍然具有巨大的价值。
数据仓库和数据集市结果被引入。它们用于从数据创建系统中获取数据,然后将逻辑应用到系统中,然后使用所需的工具提取数据并存储数据。
数据存储在能够支持我们分析过程的结构中。这些概念广泛地定义了用于报告和分析的集合或表的创建。因此,我们必须整理数据,移动它,并以一种形式存储它,以提供报告作为输出。
通过这种方式,我们可以跨多个系统查看数据,同时也减少了对数据生成系统生成的数据进行分析的负担。他们不关注日常操作和事务,而是关注数据的建模和分析。
对于精确和明确的商业智能,公司依赖于数据仓库。数据集市也服务于类似的目的,那么是什么使它们彼此不同呢?
数据仓库与数据集市
下表提供数据仓库和数据集市的区别.
数据仓库 | 数据集市 |
集中储存系统(涵盖不同主题的数据) | 集中式存储系统(涵盖各种主题的数据)分散式存储系统(集中于特定用户组) |
数十或数百个数据源 | 通常只有几个数据源 |
存储各种主题的数据 | 存储与特定主题相关的数据 |
数据详细形式 | 数据汇总形式 |
数据有点非正规化。 | 数据高度非正规化。 |
雪花,事实星座模式 | 使用星形和雪花模式 |
建立在数据库和其他数据生成系统之上 | 通常建立在数据仓库之上 |
自顶向下的模型 | 自底向上的模型 |
目标是有用的数据可视化,分析,商业智能 | 目的是存储数据有用的特定部分的主题 |
灵活、面向数据、寿命长。 | 限制性强,以项目为导向,寿命短。 |
由于大量的数据和很高的失败风险,很难构建 | 由于更少的数据量和更低的失败风险,构建更简单。 |
数据仓库的规模很大。 | 数据集市的大小比数据仓库小。 |
业务范围的分析 | 部门特定分析 |
什么是数据仓库?
数据仓库被描述为一个面向主题的、集成的、时变的和非易失的知识集合,以支持管理的决策过程诗人Inmon.它是为组织的操作数据库单独维护的。它旨在为信息处理和数据历史分析提供一个平台。通过排除对流程无用的数据,它提供了一个围绕特定主题的简单而简洁的视图。
数据仓库是创建和使用数据仓库的过程。它们是通过集成多个异构数据源构建的。这里的数据不需要操作更新。只需要加载和访问数据两种操作,数据以静态格式加载,不需要任何修改。
数据仓库不包含最新的信息。它服务于来自不同源系统的数据之间的相关性。人们经常混淆数据仓库和数据库。
数据仓库是数据库的顶层,它从数据库中获取(提取、转换和加载)数据并存储它们以供分析。然后对这些数据进行处理以获得其见解。
数据仓库用于在线分析处理(OLAP),它服务于知识工作者的决策和数据分析角色。它用于提取重要的见解和简化业务流程,是业务智能中的一个重要元素。它使业务用户能够更快地访问与查询相关的数据,并提高数据的一致性和质量。
数据仓库在金融、电信、运输等各个领域都有应用。
什么是数据集市?
数据集市是数据仓库的一个独立的逻辑子集。数据关注特定用户,关注特定功能领域的人。它是一个小型的数据存储库。数据集市可能具有与数据仓库相似的结构。然而,建立一个数据集市需要更少的时间,也就是几个月。这可能是由于其较小的规模和从较少数量的来源提取数据。
数据集市更适合用于专门的业务单位。因此,数据集市是一种范围有限的数据仓库,其数据可以通过摘要进行分析。因此,不需要整个组织的数据。一个企业可以使用多个数据集市。设计一个数据集市是一个漫长而昂贵的过程。即便如此,每个行业都必须有自己的数据集市。
作者
Shriya Upasani
麻省理工学院的世界和平大学