您好!歡迎進入廣州術航信息科技有限公司官網!

辨析BI、數據倉庫、數據湖和數據中(zhōng)台内涵及差異點

添加時間:2019-09-16 09:59:16

來源:

浏覽:

前言

随着大(dà)數據技術的不斷更新和叠代,數據管理工(gōng)具得到了飛速的發展,相關概念如雨後春筍一(yī)般應運而生(shēng),如從最初決策支持系統(DDS)到商(shāng)業智能(BI)、數據倉庫、數據湖、數據中(zhōng)台等,這些概念特别容易混淆,本文對這些名詞術語及内涵進行系統的解析,便于讀者對數據平台相關的概念有全面的認識。

 

一(yī)數據倉庫

數據倉庫平台逐步從BI報表爲主到分(fēn)析爲主、到預測爲主、再到操作智能爲目标。

圖片1.png

商(shāng)務智能(BI,Business Intelligence)是一(yī)種以提供決策分(fēn)析性的運營數據爲目的而建立的信息系統。是屬于在線分(fēn)析處理:On Line Analytical Processing(OLAP),将預先計算完成的彙總數據,儲存于魔方數據庫(Cube) 之中(zhōng),針對複雜(zá)的分(fēn)析查詢,提供快速的響應。在前10年,BI報表項目比較多,是數據倉庫項目的前期預熱項目(主要分(fēn)析爲主的階段,是數據倉庫的初級階段),制作一(yī)些可視化報表展現給管理者。

它利用信息科技,将分(fēn)散于企業内、外(wài)部各種數據加以整合并轉換成知(zhī)識,并依據某些特定的主題需求,進行決策分(fēn)析和運算;

用戶則通過報表、圖表、多維度分(fēn)析的方式,尋找解決業務問題所需要的方案;

 這些結果将呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知(zhī)識庫自動向客戶推送。

1.1數據倉庫基本定義

數據倉庫(Data Warehouse)是一(yī)個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映曆史變化的(Time Variant)數據集合,用于支持管理決策和信息的全局共享。其主要功能是将組織透過資(zī)訊系統之聯機事務處理(OLTP)經年累月所累積的大(dà)量資(zī)料,透過數據倉庫理論所特有的資(zī)料儲存架構,作一(yī)有系統的分(fēn)析整理,以利各種分(fēn)析方法如聯機分(fēn)析處理(OLAP)、數據挖掘(Data Mining)之進行,并進而支持如決策支持系統(DSS)、主管資(zī)訊系統(EIS)之創建,幫助決策者能快速有效的自大(dà)量資(zī)料中(zhōng),分(fēn)析出有價值的資(zī)訊,以利決策拟定及快速回應外(wài)在環境變動,幫助建構商(shāng)業智能(BI)。[1]:引自全球數據倉庫之父 W.H.Inmon。

所謂主題:是指用戶使用數據倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數據倉庫内的信息是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。

所謂集成:是指數據倉庫中(zhōng)的信息不是從各個業務系統中(zhōng)簡單抽取出來的,而是經過一(yī)系列加工(gōng)、整理和彙總的過程,因此數據倉庫中(zhōng)的信息是關于整個企業的一(yī)緻的全局信息。

所謂随時間變化:是指數據倉庫内的信息并不隻是反映企業當前的狀态,而是記錄了從過去(qù)某一(yī)時點到當前各個階段的信息。通過這些信息,可以對企業的發展曆程和未來趨勢做出定量分(fēn)析和預測。

圖片2.png

1.2數據倉庫系統作用和定位

數據倉庫系統的作用能實現跨業務條線、跨系統的數據整合,爲管理分(fēn)析和業務決策提供統一(yī)的數據支持。數據倉庫能夠從根本上幫助你把公司的運營數據轉化成爲高價值的可以獲取的信息(或知(zhī)識),并且在恰當的時候通過恰當的方式把恰當的信息傳遞給恰當的人。

圖片3.png

是面向企業中(zhōng)、高級管理進行業務分(fēn)析和績效考核的數據整合、分(fēn)析和展現的工(gōng)具;

是主要用于曆史性、綜合性和深層次數據分(fēn)析

 數據來源是ERP(例:SAP)系統或其他業務系統;

能夠提供靈活、直觀、簡潔和易于操作的多維查詢分(fēn)析;

不是日常交易操作系統,不能直接産生(shēng)交易數據;

數據倉庫針對實時數據處理,非結構化數據處理能力較弱,以及在業務在預警預測方面應用相對有限。

1.3數據倉庫能提供什麽

圖片4.png

1.4數據倉庫系統構成

數據倉庫系統除了包含分(fēn)析産品本身之外(wài),還包含數據集成、數據存儲、數據計算、門戶展現、平台管理等其它一(yī)系列的産品。

 

圖片5.png

二數據湖

數據湖(Data Lake)Pentaho的CTO James Dixon提出來的(Pentaho作爲一(yī)家BI公司在理念上是挺先進的),是一(yī)種數據存儲理念——即在系統或存儲庫中(zhōng)以自然格式存儲數據的方法。

2.1維基百科對數據湖的定義

數據湖(Data Lake)是一(yī)個存儲企業的各種各樣原始數據的大(dà)型倉庫,其中(zhōng)的數據可供存取、處理、分(fēn)析及傳輸。數據湖是以其自然格式存儲的數據的系統或存儲庫,通常是對象blob或文件。數據湖通常是企業所有數據的單一(yī)存儲,包括源系統數據的原始副本,以及用于報告、可視化、分(fēn)析和機器學習等任務的轉換數據。數據湖可以包括來自關系數據庫(行和列)的結構化數據,半結構化數據(CSV,日志(zhì),XML,JSON),非結構化數據(電子郵件,文檔,PDF)和二進制數據(圖像,音頻(pín),視頻(pín))。來源:維基百科。

目前,Hadoop是最常用的部署數據湖的技術,所以很多人會覺得數據湖就是Hadoop集群。數據湖是一(yī)個概念,而Hadoop是用于實現這個概念的技術。

圖片6.png

圖片7.png


2.2數據湖能給企業帶來多種能力

數據湖能給企業帶來多種能力,例如,能實現數據的集中(zhōng)式管理,在此之上,企業能挖掘出很多之前所不具備的能力。另外(wài),數據湖結合先進的數據科學與機器學習技術,能幫助企業構建更多優化後的運營模型,也能爲企業提供其他能力,如預測分(fēn)析、推薦模型等,這些模型能刺激企業能力的後續增長。數據湖能從以下(xià)方面幫助到企業:

實現數據治理(data governance)。

通過應用機器學習與人工(gōng)智能技術實現商(shāng)業智能。

預測分(fēn)析,如領域特定的推薦引擎。

信息追蹤與一(yī)緻性保障。

根據對曆史的分(fēn)析生(shēng)成新的數據維度。

有一(yī)個集中(zhōng)式的能存儲所有企業數據的數據中(zhōng)心,有利于實現一(yī)個針對數據傳輸優化的數據服務。

幫助組織或企業做出更多靈活的關于企業增長的決策。

2.3數據倉庫與數據湖差異

在儲存方面上,數據湖中(zhōng)數據爲非結構化的,所有數據都保持原始形式。存儲所有數據,并且僅在分(fēn)析時再進行轉換。數據倉庫就是數據通常從事務系統中(zhōng)提取。

在将數據加載到數據倉庫之前,會對數據進行清理與轉換。在數據抓取中(zhōng)數據湖就是捕獲半結構化和非結構化數據。而數據倉庫則是捕獲結構化數據并将其按模式組織。

數據湖的目的就是數據湖非常适合深入分(fēn)析的非結構化數據。數據科學家可能會用具有預測建模和統計分(fēn)析等功能的高級分(fēn)析工(gōng)具。而數據倉庫就是數據倉庫非常适用于月度報告等操作用途,因爲它具有高度結構化。

在架構中(zhōng)數據湖通常,在存儲數據之後定義架構。使用較少的初始工(gōng)作并提供更大(dà)的靈活性。在數據倉庫中(zhōng)存儲數據之前定義架構。

1.數據倉庫、數據湖和數據湖的區别如下(xià):

 

圖片8.png


三數據中(zhōng)台3.1産生(shēng)的背景

企業在過去(qù)信息化的曆程中(zhōng)形成了大(dà)量生(shēng)産經營及專業業務應用成果,同時也累積了大(dà)量的企業數據資(zī)産。限于傳統的數據倉庫技術手段,數據管理和分(fēn)析能力成爲信息化工(gōng)作中(zhōng)的短闆。企業信息系統衆多,系統管理獨立,數據存儲分(fēn)散,橫向的數據共享和分(fēn)析應用僅由具體(tǐ)業務驅動,難以對全局數據開(kāi)展價值挖掘,從規模上和效果上都無法真正體(tǐ)現集團龐大(dà)數據資(zī)産的價值。市場競争和産業鏈日益全球化,企業不隻滿足于内部數據的分(fēn)析,更要通過互聯網、微信、APP等新技術手段結合外(wài)部市場數據進行整體(tǐ)分(fēn)析。

1)傳統的數據倉庫不能滿足數據分(fēn)析需求

企業在數據分(fēn)析應用方面呈現五大(dà)轉變從統計分(fēn)析向預測分(fēn)析轉變、從單領域分(fēn)析向跨領域轉變、從被動分(fēn)析向主動分(fēn)析轉變、從非實時向實時分(fēn)析轉變、從結構化數據向多元化轉變),并且對統一(yī)的數據中(zhōng)台平台訴求強烈,對數據中(zhōng)台的運算能力、核心算法、及數據全面性提出了更高的要求。

2)數據中(zhōng)台的處理架構發生(shēng)了變化。

一(yī)是以Hadoop、Spark等分(fēn)布式技術和組件爲核心的“計算&存儲混搭”的數據處理架構,能夠支持批量和實時的數據加載以及靈活的業務需求。二是數據的預處理流程正在從傳統的ETL結構向ELT轉變。傳統的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一(yī)環,即用戶從數據源抽取出所需的數據,經過數據清洗,将數據加載到數據倉庫中(zhōng)去(qù)。而大(dà)數據背景下(xià)的架構體(tǐ)系是ELT結構,其根據上層的應用需求,随時從數據中(zhōng)台中(zhōng)抽取想要的原始數據進行建模分(fēn)析。

3.2數據中(zhōng)台建設是數字化轉型的關鍵支撐

數據中(zhōng)台成爲熱點,“中(zhōng)台”這個概念,是相對于前台和後台而生(shēng),是前台和後台的鏈接點,将業務共同的工(gōng)具和技術予以沉澱。數據中(zhōng)台是指數據采集交換、共享融合、組織處理、建模分(fēn)析、管理治理和服務應用于一(yī)體(tǐ)的綜合性數據能力平台,在大(dà)數據生(shēng)态中(zhōng)處于承上啓下(xià)的功能,提供面向數據應用支撐的底座能力。

廣義上來給數據中(zhōng)台一(yī)個企業級的定義:“聚合和治理跨域數據,将數據抽象封裝成服務,提供給前台以業務價值的邏輯概念”。

圖片9.png

中(zhōng)台戰略核心是數據服務的共享。中(zhōng)台戰略并不是搭建一(yī)個數據平台,但是中(zhōng)台的大(dà)部分(fēn)服務都是圍繞數據而生(shēng),數據中(zhōng)台是圍繞向上層應用提供數據服務構建的,中(zhōng)台戰略讓數據在數據平台和業務系統之間形成了一(yī)個良性的閉環,也就是實現應用與數據之間解藕,并實現緊密交互。

敏捷前台:一(yī)線作戰單元,強調敏捷交互及穩定交付的組織能力建設。

業務中(zhōng)台:能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應,産品化業務化,開(kāi)辟全新生(shēng)态。

數據中(zhōng)台:資(zī)産整合與共享,整合多維數據,統一(yī)資(zī)産管理,連通數據孤島,共享數據資(zī)源,深入挖掘數據,盤活資(zī)産價值。

穩定後台:以共享中(zhōng)心建設爲核心,爲前中(zhōng)台提供專業的内部服務支撐。

3.3數據中(zhōng)台定義及處理架構

數據中(zhōng)台是指通過企業内外(wài)部多源異構的數據采集、治理、建模、分(fēn)析,應用,使數據對内優化管理提高業務,對外(wài)可以數據合作價值釋放(fàng),成爲企業數據資(zī)産管理中(zhōng)樞。數據中(zhōng)台建立後,會形成數據API,爲企業和客戶提供高效各種數據服務。

圖片10.png


數據中(zhōng)台整體(tǐ)技術架構上采用雲計算架構模式,将數據資(zī)源、計算資(zī)源、存儲資(zī)源充分(fēn)雲化,并通過多租戶技術進行資(zī)源打包整合,并進行開(kāi)放(fàng),爲用戶提供“一(yī)站式”數據服務。

利用大(dà)數據技術,對海量數據進行統一(yī)采集、計算、存儲,并使用統一(yī)的數據規範進行管理,将企業内部所有數據統一(yī)處理形成标準化數據,挖掘出對企業最有價值的數據,構建企業數據資(zī)産庫,提供一(yī)緻的、高可用大(dà)  數據服務。

數據中(zhōng)台不是一(yī)套軟件,也不是一(yī)個信息系統,而是一(yī)系列數據組件的集合,企業基于自身的信息化建設基礎、數據基礎以及業務特點對數據中(zhōng)台的能力進行定義,基于能力定義利用數據組件搭建自己的數據中(zhōng)台。

3.4數據中(zhōng)台帶來價值

數據中(zhōng)台對一(yī)個企業的數字化轉型和可持續發展起着至關重要的作用。數據中(zhōng)台爲解耦而生(shēng),企業建設數據中(zhōng)台的最大(dà)意義就是應用與數據解藕。這樣企業就可以不受限制地按需構建滿足業務需求的數據應用。

 構建了開(kāi)放(fàng)、靈活、可擴展的企業級統一(yī)數據管理和分(fēn)析平台, 将企業内、外(wài)部數據随需關聯,打破了數據的系統界限。

 利用大(dà)數據智能分(fēn)析、數據可視化等技術,實現了數據共享、日常報表自動生(shēng)成、快速和智能分(fēn)析,滿足集團總部和各分(fēn)子公司各級數據分(fēn)析應用需求。

深度挖掘數據價值,助力企業數字化轉型落地。實現了數據的目錄、模型、标準、認責、安全、可視化、共享等管理,實現數據集中(zhōng)存儲、處理、分(fēn)類與管理,建立大(dà)數據分(fēn)析工(gōng)具庫、算法服務庫,實現報表生(shēng)成自動化、數據分(fēn)析敏捷化、數據挖掘可視化,實現數據質量評估、落地管理流程。

四傳統數據倉庫與數據中(zhōng)台的差異點

圖片11.png

圖片12.png

結論

本文對數據倉庫、數據湖、數據中(zhōng)台等内涵作了詳細說明,便于讀者更好的理解和掌握數據領域相關概念。

最後總結一(yī)點:數據中(zhōng)台更好的支撐數據預測分(fēn)析、跨領域分(fēn)析、主動分(fēn)析、實時分(fēn)析、多元化結構化數據分(fēn)析,數據中(zhōng)台建設是我(wǒ)們企業數據服務和共享奠定重要的基礎,可以加速從數據到價值的過程,打造相應業務能力


 

 

聯系我(wǒ)們

  地 址:甯夏銀川市金鳳區萬壽路142号路橋大(dà)廈1号辦公樓9層

  電 話(huà):0951—6727966

  傳 真:0951—6727966

  郵 箱:nxzaxxkj@163.com

掃二維碼 關注政安信息