<track id="wuwfx"></track>

    <tbody id="wuwfx"></tbody>
  • <track id="wuwfx"><span id="wuwfx"></span></track>
    <bdo id="wuwfx"><dfn id="wuwfx"><thead id="wuwfx"></thead></dfn></bdo>
    <track id="wuwfx"></track>
    <track id="wuwfx"></track>
    <nobr id="wuwfx"><optgroup id="wuwfx"></optgroup></nobr>

    新聞咨詢

    新聞中心

    當前位置: 首頁 > 新聞中心 > 行業資訊

    數據中臺建設系列篇:什么是數據中臺?

    2023-02-08 10:00:01

      數據中臺建設系列篇:什么是數據中臺?


      01、數據中臺的前世今生


      在正式進入數據中臺建設實踐之前,我想花點時間先聊一聊大數據的發展史,這樣更能理解數據中臺誕生的原因。不管是學習一項知識,還是討論一個問題,好的方法都不應該是一頭扎進細節里,而是應該先從時空的維度了解其來龍去脈,當你了解了一件事物的前因后果后,更能透過現象,洞察背后的本質。理解了大數據的發展歷史,更能體會數據中臺誕生的必然性和數據中臺建設方法論。


      1.0 數據倉庫誕生


      1996年,美國加特納集團第 一次提出商業智能的概念,它是指通過一系列的技術和方法,將企業已有的數據轉化為有用的信息,幫助企業制定經營分析決策。比如,對于零售企業的庫存管理,如何保證不大面積斷貨影響產品銷量的同時,避免庫存大量積壓導致的成本增加,我們要分析每個商品的銷售量趨勢、庫存情況和未來銷量預測,制定合理的采購計劃,對滯銷商品采取降價促銷,對暢銷品、爆品要提前下生產訂單,供應鏈部門根據商品訂單,提前采購、生產。這些需求的實現,依賴于聚合多個業務系統數據進行分析,如供應鏈系統、倉儲系統等。同時也要保存歷史數據,支持銷量預測。然而,傳統數倉是面向單一業務系統,主要實現面向事物的增刪改查,不能滿足復雜的數據分析場景,此時,數據倉庫的概念應運而生了。


      數據倉庫之父比爾·恩門在 1991 年出版的《Building the Data Warehouse》中首次給出了數據倉庫的完整定義:數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的,不可修改的數據集合。舉個例子讓大家更好的理解,比如在電商場景中,訂單數據、會員數據、庫存數據存放在三個不同的數據倉庫中,構建數據倉庫,首先要把不同業務系統的數據同步到一個統一的數據倉庫中,然后按照劃分主題域的方式組織數據。

    數據中臺建設系列篇:什么是數據中臺?

      主題域是對業務過程的高度抽象,像商品、交易、用戶、供應鏈都能作為一個主題域,可以把它理解為數據倉庫的一個目錄。數據倉庫中的數據一般是按照時間進行分區存放,一般會保留 5 年以上,每個時間分區內的數據都是追加寫的方式,對于某條記錄是不可更新的。


      數據倉庫的出現,明確了復雜場景的數據分析解決方案,讓數據分析場景不再依賴業務數據庫,也為商業智能的發展奠定了技術基礎。


      2.0 Hadoop出現


      進入互聯網時代后,有兩個比較明顯的變化,一個是數據規模的增長未有,一個是數據異構化普遍存在。傳統數據庫難于擴展、數據在導入前必須事先定義好模型的特性,決定了傳統數據倉庫根本無法承載互聯網時代海量數據存儲和計算。


      2004年前后,當大多數公司還在研究如何擴展單機性能,尋找更貴更好的服務器時,互聯網巨頭谷歌發表的 3 篇論文讓業界為之一振,也就是我們經常聽到的“三駕馬車”,分別是分布式文件系統 GFS、大數據分布式計算框架 MapReduce 和 NoSQL 數據庫系統 BigTable。論文思路是部署一個大規模的服務器集群,通過分布式的方式將海量數據存儲在這個集群上,然后利用集群上的所有機器進行數據計算。這樣一來,Google 其實不需要買很多很貴的服務器,它只要把這些普通的機器組織到一起,就能實現大量的數據的存儲和計算。


      當時的天才程序員Doug Cutting 受Google 的論文影響,開始基于論文原理實現GFS和MapReduce的功能,兩年后,Google的理論被變成現實,Hadoop正式誕生。和傳統數倉相比,Hadoop有以下兩點優勢:


      l 完全分布式,易于擴展,可以使用價格低廉的機器堆出一個計算、存儲能力很強的集群,滿足海量數據的處理要求;


      l 弱化數據格式,數據被集成到 Hadoop 之后,可以不保留任何數據格式,數據模型與數據存儲分離,數據在被使用的時候,可以按照不同的模型讀取,滿足異構數據靈活分析的需求。


      3.0 大數據平臺興起


      一個商用Hadoop支持幾十種計算引擎,數據研發流程復雜,通常涉及數據集成、數據開發、數據測試、數據發布、任務運維等。繁雜的工作流程使得數據研發的門檻高、效率低下。為解決數據研發低效率、高門檻的問題,大數據平臺應運而生,自此,數據實現了“流水線”式的快速加工。


      這里簡單介紹下大數據平臺。


      大數據平臺是面向數據研發場景的數據研發全鏈路的工作平臺??梢詫崿F數據流水線化快速加工。

    數據中臺建設系列篇:什么是數據中臺?

      大數據平臺由下至上大致可分為三部分,分別是數據采集、數據處理、數據展示。


      l 數據采集


      由于數據源不同,所以數據同步系統相當于多個組件的集合,業務數據庫同步一般用Sqoop,日志同步可以選Flume,埋點數據經過格式轉換后通過kafaka消息隊列進行傳輸。


      l 數據處理


      數據處理是大數據計算的核心,數據同步系統導入的數據會存儲到HDFS,Hive、Mapreduce、Spark等計算任務讀取HDFS的數據計算后再將計算結果寫入HDFS。


      l 數據展示


      大數據計算產生的結果被寫入了HDFS,但應用程序不能直接到HDFS中讀取數據,所以需要數據同步系統將計算結果導出到數據庫,應用程序就可以直接訪問數據庫中的數據,展示給用戶。


      那各種數據什么時候開始同步,各種計算引擎任務如何合理調度才能使資源利用合理、等待的時間又不至于太久,同時臨時的重要任務還能夠盡快執行,這就需要任務調度管理系統來對上述三個部分進行整合完成,大數據平臺上的其他系統一般都有開源的可供選擇,但任務調度管理系統一般涉及很多個性化的需求,通常需要自己開發,開源的大數據調度系統有 Oozie,也可以在此基礎進行擴展。


      4.0 數據中臺時代


      2016年左右,隨著互聯網的高速發展,業務場景的不斷增加,數據應用的需求越來越多,為快速響應業務的需求,很多企業都不同程度的存在煙囪式的開發模式,這種煙囪式的開發導致企業不同業務線的數據是割裂的,這就造成了數據的重復加工,導致研發效率、數據存儲和計算資源的浪費,使大數據的應用成本越來越高,也帶來指標口徑不一致的問題。產生這些問題的根源在于數據無法共享,為解決這一問題,2016年,阿里率先提出“數據中臺”的口號。數據中臺的核心是:避免數據的重復加工,通過數據服務化,提高數據的共享能力,賦能數據應用。


      總的來說,數據中臺具備異構數據統一計算、存儲的能力,同時讓分散雜亂的數據通過規范化的方式管理起來。數據中臺借鑒了傳統數倉面向主題域的數據組織方式,基于維度建模理論,構建統一的數據公共層和應用層。數據中臺依賴于大數據平臺完成數據研發全流程,同時增加了數據治理和數據服務化以及數據資產內容。


      02、什么是數據中臺


      說完了數據中臺誕生的歷史背景,現在,我們應該對數據中臺有了一定的了解,那我們現在給數據中臺下個定義。


      自2016年,數據中臺被提出以來,不同的人對數據中臺有不同的理解,就像一千個讀者心中有一千個哈姆雷特,因此也有許多不同的定義,以下是我從一些文章、書籍中搜集到的關于數據中臺的定義:

    數據中臺建設系列篇:什么是數據中臺?

      我的理解:數據中臺是DT時代的大背景下,為實現數據快(快速)、準(準確)、省(低成本)賦能業務發展的目標,將企業的數據統一整合起來,基于Onedata方法論借助大數據平臺完成數據的統一加工處理,對外提供數據服務的一套機制。


      舉個例子:如果把數據比如新時代的水電煤,那數據中臺就是煤業公司、水廠,煤如果深埋地下,不被挖掘加工,就沒法發揮應有價值。所以,建設好基礎,數據價值才能大化被挖掘。


      03、數據中臺的價值


      1 數據中臺是企業數據化建設的基礎設施


      數據中臺解決了企業全域數據匯聚的問題,打通以往的數據孤島,沉淀數據資產,實現數據之間的價值共通,可基于數據中臺滿足復雜的數據應用場景。


      2 提升數據質量


      數據中臺基于Onedata方法論構建統一的公共層,保證了源頭數據的一致性,且實現數據按照統一口徑只加工一次,實現全局指標、標簽的統一,大大提高數據質量。


      3 節約企業數據應用成本


      基于數據中臺的元數據管理的數據血緣,可以實現數據投入產出比的評估,及時發現并下線低ROI的數據,也避免數據重復加工。由此降低數據的研發、存儲和計算成本,降低企業數據應用成本。


      比如,對于一些超過3個月未使用的報表,可以做下線處理,評估表的ROI,對于低ROI的報表及時下線處理。


      4 健全各部門協作機制


      利用系統化的解決方案配合一定的管理機制,實現業務人員、數據研發、產品經理、數據分析師等角色的高效協同,提升各角色之間的協作效率。


    近期瀏覽:

    相關產品

    相關新聞

    image.png

       手機號碼:181-6656-2464(咨詢洽談)

       郵箱地址:office@yunhuakeji.com

       公司地址:重慶市九龍坡區火炬大道69號 重慶啟迪科技園13號樓2層

    座機號碼:

    023-68529599 / 400-168-2779

    Copyright ? 重慶云華科技有限公司 All rights reserved 備案號:渝ICP備19003819號-1

    用戶協議    隱私申明    法律聲明

  • 国产欧美日韩国产第一区

    <track id="wuwfx"></track>

    <tbody id="wuwfx"></tbody>
  • <track id="wuwfx"><span id="wuwfx"></span></track>
    <bdo id="wuwfx"><dfn id="wuwfx"><thead id="wuwfx"></thead></dfn></bdo>
    <track id="wuwfx"></track>
    <track id="wuwfx"></track>
    <nobr id="wuwfx"><optgroup id="wuwfx"></optgroup></nobr>