在本文開始之前,先解答一個常見疑問,即數(shù)據(jù)治理與數(shù)據(jù)管理的關(guān)系。雖然當(dāng)前數(shù)據(jù)治理的詞頻熱度高于數(shù)據(jù)管理,但數(shù)據(jù)治理只是數(shù)據(jù)管理的一部分。
數(shù)據(jù)治理VS數(shù)據(jù)管理
不管是軟件能力成熟度模型集成協(xié)會(CMMI)發(fā)布的數(shù)據(jù)管理成熟度模型(DMM),還是數(shù)據(jù)管理協(xié)會(DAMA)發(fā)布的數(shù)據(jù)管理知識體系(DMBOK),都有相關(guān)說明,比如DMM明確了數(shù)據(jù)管理工作體系框架,包括數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)質(zhì)量、數(shù)據(jù)運營、平臺和架構(gòu)、數(shù)據(jù)治理等5大核心域。
雖如此,但數(shù)據(jù)治理是數(shù)據(jù)管理不可或缺的重要組成部分。數(shù)據(jù)治理強(qiáng)調(diào)如何讓數(shù)據(jù)資產(chǎn)長期、可持續(xù)的發(fā)揮價值,因此需要明確職責(zé)、流程、權(quán)限角色、規(guī)范、標(biāo)準(zhǔn)等。
而數(shù)據(jù)管理范圍更廣,強(qiáng)調(diào)通過人員、流程、技術(shù)等方面的協(xié)同實現(xiàn)公司層面的數(shù)據(jù)共享并充分發(fā)揮數(shù)據(jù)價值,數(shù)據(jù)管理貫穿數(shù)據(jù)生成、存儲、使用、共享、歸檔、銷毀的全生命周期。不同類型的數(shù)據(jù)比如元數(shù)據(jù)、主數(shù)據(jù)等都需要數(shù)據(jù)治理。
數(shù)據(jù)分類與主數(shù)據(jù)概念
在理解主數(shù)據(jù)、解決數(shù)據(jù)問題之前,首先,我們要明確到底有哪些數(shù)據(jù)或哪幾類數(shù)據(jù)?當(dāng)然,數(shù)據(jù)按照不同維度、不同語境可以分為不同的類,比如結(jié)構(gòu)化和非結(jié)構(gòu)化化、交易和非交易數(shù)據(jù)、行業(yè)數(shù)據(jù)和公司數(shù)據(jù)等。從數(shù)據(jù)治理或信息化項目的角度,數(shù)據(jù)一般分為:數(shù)據(jù)元、元數(shù)據(jù)、主數(shù)據(jù)、參考數(shù)據(jù)、常規(guī)數(shù)據(jù)等。
數(shù)據(jù)(data),根據(jù)《信息技術(shù)數(shù)據(jù)元的規(guī)范和標(biāo)準(zhǔn)化》(GB/T18391.1-2002),數(shù)據(jù)是指對事實、概念或指令的一種形式化標(biāo)示,適用于以人工或自動方式進(jìn)行通信、解釋和處理。
數(shù)據(jù)元(data element),指用一組屬性描述定義、標(biāo)識、表示和允許值的數(shù)據(jù)單元。在特定的語境中,可以認(rèn)為是不可再分的最小數(shù)據(jù)單元,也可以直觀理解為數(shù)據(jù)庫表的列,對象、特征、表達(dá)是數(shù)據(jù)元的三要素,比如“今天股市收盤是2500點”數(shù)據(jù)元,其中“今天股市”就是對象,“收盤”是特性,“2500”是表達(dá)。
元數(shù)據(jù)(MetaData),指描述數(shù)據(jù)的數(shù)據(jù),也指幫助查找、存取、使用和管理信息資源的信息。為便于理解元數(shù)據(jù)和數(shù)據(jù)元,作者舉個例子,比如我們要向中證金融報送兩融數(shù)據(jù),數(shù)據(jù)報送接口規(guī)范中有許多表,每個表有許多列,每個列有填報要求比如類型、是否為空。每個填報字段可以認(rèn)為是數(shù)據(jù)元,而每個填報字段的填報要求可以認(rèn)為是該字段的元數(shù)據(jù),而每個字段可以認(rèn)為是該表的元數(shù)據(jù)。也即數(shù)據(jù)元和元數(shù)據(jù)本身也是數(shù)據(jù),在不同的上下文有不同的定義和理解,本身都是個相對的概念,意識到這點才能很好理解兩者的關(guān)系。現(xiàn)實中,元數(shù)據(jù)常見用于描述數(shù)據(jù)庫中所有數(shù)據(jù)的語境,而數(shù)據(jù)元通常用在行業(yè)標(biāo)準(zhǔn)制定。
參考數(shù)據(jù)(reference data),指數(shù)據(jù)可能的取值范圍及其解釋,也即我們常說的數(shù)據(jù)字典。數(shù)據(jù)字典雖然很好理解,但行業(yè)現(xiàn)實中,由于每個系統(tǒng)有不同的數(shù)據(jù)字典,甚至同一系統(tǒng)內(nèi)也有不同數(shù)據(jù)字典,而且沒有統(tǒng)一標(biāo)準(zhǔn),間接造就了大量的數(shù)據(jù)孤島,也需要加強(qiáng)治理。
常規(guī)數(shù)據(jù)(作者自己定義),是與每日業(yè)務(wù)開展或每個業(yè)務(wù)人員最為關(guān)注的那些數(shù)據(jù),比如交易、審計、采購訂單、銷售訂單、報表等等數(shù)據(jù)。
主數(shù)據(jù)(master data),通常是不隨或很少隨時間變化的靜態(tài)數(shù)據(jù),并且與個體活動或流程無關(guān),比如客戶、證券標(biāo)的、金融產(chǎn)品、會計科目等信息,這些信息構(gòu)成了公司的業(yè)務(wù)。主數(shù)據(jù)掌控交易數(shù)據(jù)如何被處理并決定著決策的精準(zhǔn)度。主數(shù)據(jù)管理,本質(zhì)上是各業(yè)務(wù)人員利用IT工具進(jìn)行協(xié)作,來協(xié)調(diào)、清理、發(fā)布和保護(hù)企業(yè)需要共享的數(shù)據(jù)資產(chǎn),保證企業(yè)核心信息的一致、準(zhǔn)確和安全。主數(shù)據(jù)也是大數(shù)據(jù)建設(shè)中的重點內(nèi)容。
為便于大家只管理解四類數(shù)據(jù)區(qū)別,作者畫了一個見圖如下:
元數(shù)據(jù)和參考數(shù)據(jù)一般與系統(tǒng)或數(shù)據(jù)庫底層設(shè)計有關(guān),相對變化頻率非常低;而主數(shù)據(jù)與技術(shù)有關(guān),與業(yè)務(wù)關(guān)系更為密切,相對變化頻率較低,也是常規(guī)數(shù)據(jù)的基礎(chǔ);而常規(guī)數(shù)據(jù)則變化頻繁,只要展業(yè)基本都會累加,且實時性要求較高?;谝陨戏诸惡头治?,作者認(rèn)為,由于主數(shù)據(jù)與業(yè)務(wù)聯(lián)系緊密且是一般數(shù)據(jù)基礎(chǔ),加上又有一定變化(頻率很低),數(shù)據(jù)治理的重點領(lǐng)域是上述四類數(shù)據(jù)中的主數(shù)據(jù),這應(yīng)該也是SAP、ORACLE等國際巨頭反復(fù)打磨并推出主數(shù)據(jù)管理解決方案的原因。
主數(shù)據(jù)管理的難點
主數(shù)據(jù)管理意義非凡,但是在實踐和實施方面還是存在很多的難點,突出表現(xiàn)在以下幾個方面:
1)認(rèn)知不統(tǒng)一,不重視主數(shù)據(jù)的總體規(guī)劃,缺乏頂層設(shè)計,無法在單位決策層、管理層和業(yè)務(wù)層等各層級統(tǒng)一思路。
2)各職能部門各自為政,難以在標(biāo)準(zhǔn)和規(guī)則層面達(dá)成一致,致使主數(shù)據(jù)代碼標(biāo)準(zhǔn)難統(tǒng)一。
3)通用標(biāo)準(zhǔn)主數(shù)據(jù)(國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)產(chǎn)生的主數(shù)據(jù))管理分散,缺乏便捷可靠的數(shù)據(jù)獲取渠道,數(shù)據(jù)獲取困難。
4)單位內(nèi)部已經(jīng)存在且分散管理的主數(shù)據(jù),由于缺乏統(tǒng)一標(biāo)準(zhǔn)和數(shù)據(jù)關(guān)聯(lián),大量的數(shù)據(jù)清洗依靠人為判斷,數(shù)據(jù)清洗難度和風(fēng)險都很大。
5)企業(yè)歷史系統(tǒng)和歷史數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)化程度不高,數(shù)據(jù)清洗難,改造成本高,給主數(shù)據(jù)系統(tǒng)集成造成較大困難。主數(shù)據(jù)管理進(jìn)程需要修改現(xiàn)有的相關(guān)生產(chǎn)業(yè)務(wù)過程和系統(tǒng),需要從管理學(xué)的角度充分調(diào)動業(yè)務(wù)部門密切配合,對組織的業(yè)務(wù)運營效率和信息決策周期要求較高。
6)主數(shù)據(jù)管理模式要求業(yè)務(wù)間有表單數(shù)據(jù)交換,因此短期內(nèi)會使得信息架構(gòu)發(fā)生變化,甚至變得更加復(fù)雜。
主數(shù)據(jù)管理實施方法
主數(shù)據(jù)實施要點主要包含主數(shù)據(jù)規(guī)劃、制定主數(shù)據(jù)標(biāo)準(zhǔn)、建立主數(shù)據(jù)代碼庫、搭建主數(shù)據(jù)管理工具、構(gòu)建運維體系及推廣貫標(biāo)六大部分,其中主數(shù)據(jù)規(guī)劃是綱領(lǐng)、制定主數(shù)據(jù)標(biāo)準(zhǔn)是基礎(chǔ)、建立主數(shù)據(jù)主數(shù)據(jù)代碼庫是過程、搭建主數(shù)據(jù)管理工具是技術(shù)手段、構(gòu)建運維體系是前提,推廣貫標(biāo)是持續(xù)保障。
主數(shù)據(jù)規(guī)劃:運用方法論并結(jié)合企業(yè)實際情況,制定主數(shù)據(jù)整實施路線圖。
主數(shù)據(jù)規(guī)劃強(qiáng)調(diào)將需求分析與系統(tǒng)建模緊密結(jié)合,需求分析是系統(tǒng)建模的基礎(chǔ),而業(yè)務(wù)調(diào)研又是需求分析的前提。
在主數(shù)據(jù)規(guī)劃咨詢的過程中需要參照標(biāo)準(zhǔn),主要參照的標(biāo)準(zhǔn)有國際標(biāo)準(zhǔn)、國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn),確保企業(yè)的主數(shù)據(jù)規(guī)劃咨詢后能夠既符合國家相關(guān)規(guī)定,又具備企業(yè)行業(yè)特色。
通過現(xiàn)狀調(diào)研和需求分析等前期工作輸出主數(shù)據(jù)規(guī)劃成果,該成果主要包括主數(shù)據(jù)標(biāo)準(zhǔn)化體系架構(gòu)、主數(shù)據(jù)集成架構(gòu)、主數(shù)據(jù)安全架構(gòu)(數(shù)據(jù)脫敏、數(shù)據(jù)權(quán)限)以及運營管理架構(gòu)(組織、制度、流程、管理規(guī)范、質(zhì)量管理措施等)等內(nèi)容,此外主數(shù)據(jù)規(guī)劃階段的關(guān)鍵活動是對成果、體系的宣貫,通過宣貫讓企業(yè)的各級管理人員及員工及時掌握相應(yīng)的標(biāo)準(zhǔn)、規(guī)范,確保整個體系的梳理運行。
制定主數(shù)據(jù)標(biāo)準(zhǔn):確定數(shù)據(jù)范圍,與業(yè)務(wù)部門共同制定主數(shù)據(jù)標(biāo)準(zhǔn), 標(biāo)準(zhǔn)內(nèi)容包括確定分類規(guī)范、編碼結(jié)構(gòu)、數(shù)據(jù)模型、屬性描述等。
制定主數(shù)據(jù)標(biāo)準(zhǔn)是建立主數(shù)據(jù)代碼庫的基礎(chǔ)工作,保障主數(shù)據(jù)管理工具開發(fā)運維以實現(xiàn)系統(tǒng)之間數(shù)據(jù)共享的前提,也是主數(shù)據(jù)管理組織及流程順利開展的關(guān)鍵階段。制定主數(shù)據(jù)標(biāo)準(zhǔn)一般遵循簡單性、唯一性、可擴(kuò)展性等相關(guān)原則,既要方便當(dāng)前應(yīng)用系統(tǒng)的需求,又要考慮未來信息系統(tǒng)發(fā)展的需求,此外,制定主數(shù)據(jù)標(biāo)準(zhǔn)還要根據(jù)業(yè)務(wù)需求的緊急程度分期建設(shè)。
主數(shù)據(jù)制定的過程參考:
1)在理解企業(yè)信息化整體規(guī)劃的基礎(chǔ)上,開展主數(shù)據(jù)標(biāo)準(zhǔn)現(xiàn)狀調(diào)研,梳理相關(guān)業(yè)務(wù)流程。
2)選取組織架構(gòu)、業(yè)務(wù)范圍等類似的優(yōu)秀企業(yè)作為標(biāo)桿進(jìn)行對比分析,歸納核心管理領(lǐng)域和業(yè)務(wù)領(lǐng)域的主數(shù)據(jù)管理需求,確定數(shù)據(jù)范圍和組織范圍。
3)要根據(jù)各類主數(shù)據(jù)的特點并結(jié)合企業(yè)實際情況,與相關(guān)業(yè)務(wù)部門共同討論制定滿足企業(yè)應(yīng)用需求的主數(shù)據(jù)標(biāo)準(zhǔn),標(biāo)準(zhǔn)內(nèi)容主要包括分類規(guī)范、編碼結(jié)構(gòu)、主數(shù)據(jù)模型、描述模板、屬性取值等。
業(yè)務(wù)標(biāo)準(zhǔn)的分類是基礎(chǔ),科學(xué)合理的分類是制定標(biāo)準(zhǔn)成功的保障,描述標(biāo)準(zhǔn)是數(shù)據(jù)信息在標(biāo)準(zhǔn)化系統(tǒng)校對的主要依據(jù),其信息的描述是由各信息的屬性字段連接而成,可針對數(shù)據(jù)分類建立標(biāo)準(zhǔn)化的描述模板,有效避免一物多名現(xiàn)象。
建立主數(shù)據(jù)代碼庫:按照主數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)檢查、數(shù)據(jù)排重、數(shù)據(jù)編碼、數(shù)據(jù)加載等,建立符合數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范的主數(shù)據(jù)代碼庫。
建立主數(shù)據(jù)代碼庫的制定方法可參考以下步驟,第一,確定代碼結(jié)構(gòu);第二,調(diào)研、收集各類代碼標(biāo)準(zhǔn);第三,分析、優(yōu)選各類代碼標(biāo)準(zhǔn)并提出規(guī)劃制定建議;第四,編制規(guī)則征求意見;第五;征求部門意見以完善和確認(rèn)規(guī)則;最后,提交規(guī)則送審稿。
搭建主數(shù)據(jù)管理工具:建設(shè)主數(shù)據(jù)管理工具,為主數(shù)據(jù)的管理提供技術(shù)支持,實現(xiàn)主數(shù)據(jù)查詢、申請、修改、審核、發(fā)布、凍結(jié)、歸檔等全生命周期管理。
構(gòu)建運維體系:建立主數(shù)據(jù)管理和標(biāo)準(zhǔn)管理的運維組織、管理流程、考核機(jī)制等,保證主數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范得到有效執(zhí)行。
推廣貫標(biāo):統(tǒng)一執(zhí)行主數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,擴(kuò)大主數(shù)據(jù)標(biāo)準(zhǔn)的應(yīng)用范圍,實現(xiàn)信息系統(tǒng)間的互聯(lián)互通及共享利用。
主數(shù)據(jù)管理工具
主數(shù)據(jù)管理工具是主數(shù)據(jù)標(biāo)準(zhǔn)文本發(fā)布、主數(shù)據(jù)全生命周期管理的重要平臺。主數(shù)據(jù)標(biāo)準(zhǔn)的維護(hù)流程和管理措施通過管理平臺進(jìn)行系統(tǒng)實現(xiàn)和控制,以保證標(biāo)準(zhǔn)的唯一性和宣貫的及時性。
主數(shù)據(jù)管理工具主要包括數(shù)據(jù)建模、數(shù)據(jù)整合、數(shù)據(jù)管理、數(shù)據(jù)服務(wù)基礎(chǔ)管理、標(biāo)準(zhǔn)管理等功能模塊。
1)主數(shù)據(jù)建模:主要以主數(shù)據(jù)標(biāo)準(zhǔn)體系為基準(zhǔn),通過可視化建模工具,定義主數(shù)據(jù)對象、編碼規(guī)則、屬性值和控制流程等基礎(chǔ)要素,構(gòu)建主數(shù)據(jù)標(biāo)準(zhǔn)模型。
2)主數(shù)據(jù)整合:主要利用數(shù)據(jù)清洗工具及擴(kuò)展功能,將各系統(tǒng)生成的主數(shù)據(jù)進(jìn)行匯集、依據(jù)主數(shù)據(jù)標(biāo)準(zhǔn)和主數(shù)據(jù)模型定義的規(guī)則進(jìn)行校驗、清洗、發(fā)布,實現(xiàn)對主數(shù)據(jù)的全生命周期管理,并整合出統(tǒng)一的、可信任的主數(shù)據(jù)。
3)主數(shù)據(jù)管理:按照標(biāo)準(zhǔn)主數(shù)據(jù)管理規(guī)程的要求,通過嚴(yán)格的管理流程,實現(xiàn)主數(shù)據(jù)創(chuàng)建、審批、發(fā)布、修改、凍結(jié)和失效等全生命周期管理以及數(shù)據(jù)字典的管理維護(hù),確保數(shù)據(jù)的一致性、準(zhǔn)確性、實時性和權(quán)威性。
4)主數(shù)據(jù)存儲和服務(wù):主數(shù)據(jù)平臺發(fā)布的基準(zhǔn)數(shù)據(jù),集中存儲于主數(shù)據(jù)基準(zhǔn)庫,提供在線查詢和訂閱功能,并通過流程驅(qū)動和消息驅(qū)動的標(biāo)準(zhǔn)接口提供數(shù)據(jù)共享服務(wù)。
5)標(biāo)準(zhǔn)文件資料管理:利用外部公共文檔管理系統(tǒng)或內(nèi)置管理功能,實現(xiàn)標(biāo)準(zhǔn)文件和相關(guān)資料的存儲管理、版本管理和標(biāo)準(zhǔn)目錄管理,配置智能化搜索引擎,實現(xiàn)智能、快捷、精確高效的查詢檢索功能。
6)基礎(chǔ)管理:主要實現(xiàn)對系統(tǒng)中的基礎(chǔ)數(shù)據(jù)進(jìn)行設(shè)置,配置靈活、安全可靠的權(quán)限管理及日志管理,包括用戶、用戶組、角色、資源、流程配置等,以及對各類主數(shù)據(jù)的進(jìn)行統(tǒng)計分析,為主數(shù)據(jù)應(yīng)用評價提供有力支撐。
主數(shù)據(jù)管理的建議
1、組織架構(gòu)
如果說數(shù)據(jù)治理不是技術(shù)部門或某一個部門的職責(zé),那么主數(shù)據(jù)管理更是如此。通過在公司層面成立數(shù)據(jù)治理小組或機(jī)構(gòu),比如內(nèi)嵌在IT治理委員會之中,明確不同部門的主數(shù)據(jù)管理工作職責(zé),形成主數(shù)據(jù)管理敏捷團(tuán)隊;建立統(tǒng)一的主數(shù)據(jù)管理使用規(guī)范,合法利用外部數(shù)據(jù)。
2、建章立制
建立覆蓋主數(shù)據(jù)全生命周期的制度和流程,比如《主數(shù)據(jù)管理流程》《主數(shù)據(jù)管理辦法》《數(shù)據(jù)治理制度》等;明確主數(shù)據(jù)管理相關(guān)的清晰角色和職責(zé),建立KPI考核機(jī)制。
3、立即行動
主數(shù)據(jù)管理和經(jīng)營機(jī)構(gòu)大小無關(guān),且機(jī)構(gòu)越大,主數(shù)據(jù)管理補(bǔ)起課來,越費力。當(dāng)然,也不能指望監(jiān)管機(jī)構(gòu)先出臺行業(yè)標(biāo)準(zhǔn)或指南,而公司、集團(tuán)、各個部門在一開始就意識到主數(shù)據(jù)管理的重要性。需要強(qiáng)調(diào)的是,主數(shù)據(jù)治理與業(yè)務(wù)關(guān)系密切,需要所有業(yè)務(wù)部門人員參與。
4、系統(tǒng)管理
即便是同一行業(yè),不同公司對主數(shù)據(jù)的定義也不可能完全一樣,主數(shù)據(jù)的實際范圍需要結(jié)合公司實際應(yīng)用和需要來商定。如果主數(shù)據(jù)管理工作較重或主數(shù)據(jù)管理已經(jīng)很精細(xì)化,則有必要借助平臺或系統(tǒng)來完成主數(shù)據(jù)的申請、確認(rèn)、審批、發(fā)布等流程。
(本文部分文字內(nèi)容來源金融科技之道和清水釣翁)
本文轉(zhuǎn)自:數(shù)據(jù)學(xué)堂
免責(zé)聲明:本文系網(wǎng)絡(luò)轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用圖片、文字如涉及作品版權(quán)問題,請聯(lián)系刪除!
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點僅代表作者本人。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報,一經(jīng)查實,本站將立刻刪除。