艾伦西蒙

很久以前,无论您是在五家和一分钱或在服装零售商那里购物的糖果,商店所有者都在跟踪您购买的内容。事实上,他们正在跟踪每个人都在购买和提出知情决定,以便根据哪些物品销售比其他项目更快。该数据维护在具有笔和一些心理数学的日志中完成,然后存储在归档柜中。

今天,在网上购物,社交媒体网络,甚至在商店数字付款方式,对客户习惯的洞察力远远超出店内店内购物的施工。必威中文官网与估计为2.24亿网上购物者在美国独自一人中,存储和理解所有数据都没有小任务。公司不仅需要存储数据,还需要从中提取相关信息。幸运的是,我们有像数据仓库这样的技术,以帮助解决挑战。

在本文中,我会概述数据仓库是什么,它是如何工作的,以及它背后的关键技术。这是我在数据仓库和课程中获得30多年的经验的所有信息,数据仓库基础为初学者,我涵盖了在组织中实现数据仓库所需的架构,尺寸设计和数据交换的最佳实践。

让我们开始使用数据仓库的基础知识。

数据仓库基础为初学者

最后更新于2020年3月

畅销书
  • 68讲座
  • 初级水平
4.5 (4,637)

建筑和尺寸设计的最佳实践和概念|艾伦西蒙

探索课程

什么是数据仓库?

数据仓库是数据的聚合到一个存储位置 - 至少,逻辑上,通常,物理上。我们可以在从多个源应用程序和运营系统中集成数据时,从多源应用程序必威中文官网和操作系统的数据集成,而且来自我们的企业内,而且从外部数据提供者中获得许多有价值的见解。

包含公司日常事务记录的关系数据库的信息是通常存储在仓库中的数据类型。然后重新组织此中央存储库中的数据,以支持报告,商业智能(BI)和分析 - 数据驱动决策所需的所有工具,以保持贵公司竞争。

数据仓库出生于20世纪80年代后期和20世纪90年代早期,基于几个不同的分析数据管理理论。IBM研究人员巴里德林和保罗墨菲被认为是19世纪80年代后期创建“业务数据仓库”的第一人。然后,作为分布式数据库管理系统的早期努力,Bill inmon定义了在20世纪90年代举行的数据仓库规则。与此同时,Ralph Kimball还对纪律提出了重大贡献,特别是通过尺寸建模在数据仓库设计中。数据仓库的概念自于发展成为我们今天所看到的 - 一种随着计算机演变而生长的复杂系统。

数据仓库与数据库

让我们清除一个共同的混乱点:数据仓库与数据库不同。要简单地说,数据库记录数据,而数据仓库是最佳被认为作为分析其收集的历史数据的环境和环境。

数据仓库通常基于数据库的顶部构建。数据库是平台,而数据仓库是用法的。存在的数据源越多,您的数据仓库将变得越复杂。

今天的一些最受欢迎的数据仓库供应商包括Amazon Redshift,Google BigQuery,Snowflake,Oracle和IBM DB2仓库等。

数据仓库有哪些好处?

数据仓库为公司的数据可能意味着和实现数据驱动的决必威中文官网策提供了深入了解。对于广泛的例子,高管和管理人员从他们的数据仓库看信息,了解他们的业务是如何做的,如果有的话,如果有的话是出现的。然后,他们以导致战略变化的方式解释数据。这些变化可以提供竞争优势并提高业务的长寿。

在一个更狭隘的意义上,这些数据驱动的洞察力和由此产生的决策跨越我们企业的广度,从销售必威中文官网到营销资金,并从制造业到人力资源和人员供应链。此外,这些数据驱动的洞察力可以以地理方式合并 - 为所必威中文官网有公司的北美行动或其在欧洲的所有运营中都有地理调查。这些见解可以必威中文官网在企业层面生产,或者降至组织级别。基本上,数据仓库负责收集和组织数据,而商业智能的兄弟姐妹纪律负责交付见解。必威中文官网

数据仓库使用BI工具进行分析感,并根据其过去和当前状态制定改善业务未来的有效方法。

数据湖与数据仓库

经常用数据仓库听到的术语是数据湖。这些是两种不同类型的数据存储使用,但每个类型的数据变得越来越模糊。

数据仓库主要基于关系数据库管理系统(DBMS)之上,例如Microsoft SQL Server,Oracle或IBM DB2。数据仓库通常仅包括结构化数据,例如数字,字符串,日期等。

一种数据湖带来任何类型的数据 - 无论是结构化,非结构化还是半结构化 - 来自许多不同的来源和应用程序,以支持分析。基本上,数据湖有助于突破应用程序和平台障碍,并为数据提供一站式购物。数据湖泊用于管理极大的数据,快速摄入量和数据更新,以及通过处理结构化,半结构化和非结构化数据来指出的 - 如上所述 - “数据变化”。它们是基于大数据环境之外的顶部,例如Hadoop或AWS(亚马逊Web服务)数据平台,如S3,Redshift,Aurora和其他AWS数据平台。

在某些方面,数据湖可以被认为是数据仓库的继任者。大多数组织仍然具有来自数据仓库的数据分析的基础,但他们将其与人工智能,机器学习和由数据湖驱动的其他高级分析一起使用。

理想情况下,组织应该在数据仓库和数据湖环境之间具有良好的集成集成,以避免两者之间不必要的碎片。

什么是一些数据仓储技术?

数据仓库可以被认为是作为子学科的集合,每种专业技术都是一组专业技术,包括:

ETL - 提取,变换,负载

当数据从其源移动到仓库中时,将发生一组进程,称为提取,转换和加载(ETL)。这三个过程一起工作以格式化和标准化传入数据,以便可以正确地加载到仓库中。

萃取进程从其原始源导入数据,并尽快将数据馈送到数据仓库环境中。对传入数据进行最小的更改;该想法是能够在有限时间窗口中摄取潜在的大量数据。

接下来是转型阶段。这是通过使值和结构一致来重新组织和将数据转换为统一架构的阶段。通过修复已知错误或以其他方式尝试防止错误数据进入用户可以访问的内容,作为转换的一部分发生数据质量保证和验证。

一旦数据均匀格式化,加载阶段可以开始。这包括将临时保留在提取阶段的数据并将其永久放入目标数据库中的数据。

负载阶段是最终阶段,尽管重复整个ETL过程 - 并且经常重复 - 以保持数据仓库最新。数据仓库数据检索的一个重要方面是维度建模,这使得检索数据更容易和更快。

维度建模

技术的维度建模与BI的数据仓库的兄弟纪律密切对齐,帮助我们构建数据事实(基本上,测量)和方面(基本上,我们如何切片,骰子和过滤这些事实)。

数据的维度建模本身是数据仓库的复杂子学科。为了返回准确的见解,必须通过源系统的正常添加新的和更新的必威中文官网内容来保持数据仓库。一些额外或修改的内容是新事实的形式,例如新的销售,或退货和退款。或者在其他域名,事实可能是大学学期的学期终点。其他额外或修改的内容是尺寸:一个全新的产品,一个新雇用的教师成员或有关放置第一订单的客户的人口统计信息。

即使在维度建模范围内,我们也可以将数据库表构建为不同的模式根据数据团队的架构方法。无论哪种方式,数据库规则管理我们如何在数据仓库中构建数据库表以及我们如何将这些表相互联系起来。

星和雪花模式

模式是数据仓库体系结构的一部分,并且它们在组织中发挥作用和对数据的分析。数据仓库经常使用两种模式,星形模式和雪花模式。

星星架构有一个名为事实表的中心表,以及从该数据表中,具有相关数据的其他维度表杆。尺寸表没有彼此连接 - 仅适用于事实表 - 从而使其成为明星形状。它是数据仓库中最简单的架构形式,它用于查询大数据集。

雪花架构,因为它的名字表明,以雪花图案形状。与星形模式一样,雪花架构仍然具有主要的事实表,但它具有尺寸表,尺寸表源于其他尺寸表。

商业智能工具通常为数据仓库设计人员提供指导,无论应使用明星或雪花模式模型。有些BI工具使用Star Schemas工作得更好,而其他工具则针对雪花模式进行了优化。无论是否实施了哪种模型,都设计了星形和雪花模式,旨在支持我们数据的尺寸分析。

为什么要使用数据仓库?

数据工程师和人们在相似位置处理大量数据通常会发现数据仓库是一个有用的工具。想要更简单地访问大量数据的组织可能还希望使用数据仓库而不是数据湖泊。

专业人士可以使用数据仓库。一些数据仓库专家单独集中在数据仓库本身,如仓库的维修或ETL开发。必威真人投注其他人仅使用经典,基于关系的数据仓库,而其他人则使用如何使用数据仓库的决策科学(BI,数据可视化和其他分析形式)。

通知数据驱动的业务决策的能力要求团队在数据仓库中具有明显的技能。具有这些技能的专业人士认为,由于组织了解数据技能对新发展以及正在进行的数据仓库的持续维护和提升的数据技能的重要性,请参阅始终如一的知识。必威真人投注

数据仓库如何实现更好的决策

总体而言,数据仓库是为贵公司做的?它将通过简化一次耗时的流程来使您的业务更加高效,更具竞争力,为商业绩效带来数据备份意识,并赋予员工更好地使用数据表达洞察力。必威中文官网

随着公司数据合并,它变得更加访问,一致,高品质,所有这些都是在强大的决策中经营茁壮成长的业务。您花费不得不多次收集,整合,清理和组织不同来源的时间的时间越多,您可以花费的时间越多,可以花费询问方法来移动公司的前进和改进您所做的操作。

掌握计划,构建和设计数据仓库需要与我的课程所需的技术数据仓库基础为初学者- 您将改变您的组织组织数据的方式,它将成为建立可靠数据洞察力的重要一步。必威中文官网

页面上次更新:2020年6月