近日一家名為“前沿?cái)?shù)控技術(shù)”的微創(chuàng)公司出名了,而且火遍IT界朋友圈。而為這家企業(yè)送上神助攻的竟然是業(yè)界知名的鵝廠。讓筆者不僅感嘆真實(shí)風(fēng)水輪流轉(zhuǎn)啊。至于事情的起因不必多說,總之一句話:“存放在騰訊云所謂三備份的存儲(chǔ)上的企業(yè)核心數(shù)據(jù)竟然丟了,而且連鵝廠這樣的大廠居然也沒恢復(fù)了”。更加不要臉的是鵝廠給出的解決方案竟然是云計(jì)算的服務(wù)費(fèi)不收了,外加賠償13萬。哥哥,你這是在賣硬盤嗎?“前沿?cái)?shù)控”憤而怒之,聲稱要起訴鵝廠賠償1000萬。
至于丟失的數(shù)據(jù)是價(jià)值13萬還是1000萬,這并不是筆者今天想要討論的問題。單就這個(gè)事件本身,由于沒有做好業(yè)務(wù)連續(xù)性管理而導(dǎo)致公司發(fā)生重大業(yè)務(wù)風(fēng)險(xiǎn)這件事情,“前沿?cái)?shù)控”的CIO和CTO的責(zé)任是跑不掉的。畢竟資源是租的,但數(shù)據(jù)可是你們自己的啊。因此從這件事情上讓我們認(rèn)識(shí)到對于一個(gè)企業(yè)來說,無論是初創(chuàng)型企業(yè)還是一個(gè)大型企業(yè),業(yè)務(wù)連續(xù)性管理(BCM)都是一項(xiàng)重要而又艱巨的任務(wù)。
風(fēng)險(xiǎn)無處不在
對于一個(gè)企業(yè)的高層領(lǐng)導(dǎo)者來說,一般負(fù)有兩大責(zé)任:最大限度地促進(jìn)業(yè)務(wù)增長和最大限度地保護(hù)核心資產(chǎn)。對于看得見的責(zé)任(促進(jìn)業(yè)務(wù)增長)一般來說都會(huì)得到企業(yè)的充分重視。而對于看不見的責(zé)任(保護(hù)核心資產(chǎn))而言,很多企業(yè)領(lǐng)導(dǎo)者就顯得不是那么的重視了。即使這些風(fēng)險(xiǎn)有可能瞬間就能毀掉這個(gè)公司。
“天上掉下來這么個(gè)餡餅,怎么就砸到我腦袋上了?”一旦發(fā)生風(fēng)險(xiǎn),這是企業(yè)管理者嘴里經(jīng)常抱怨的一句話。不過恭喜你,這個(gè)“餡餅”就砸到你的腦袋上了。這就是風(fēng)險(xiǎn),風(fēng)險(xiǎn)無處不在。企業(yè)面臨的風(fēng)險(xiǎn)既有可能是像911襲擊或者超強(qiáng)颶風(fēng)登陸那種如電影般的毀滅性事件,也有可能是像停電、漏水、火災(zāi)這樣的常見事件。但是無論事件大小,一旦事件處理失控,給企業(yè)帶來的就有可能是災(zāi)難性的打擊。試想一下,某一天中午,你和平常一樣走出公司總部大門吃午飯,突然接到接到火警電話,并被告知總部大樓因?yàn)槭Щ鸺捌渌离[患導(dǎo)致一周之內(nèi)全面封閉檢查。即使你的數(shù)據(jù)中心并沒有在火災(zāi)中被損壞,請問你能保證你的正常業(yè)務(wù)不受影響嗎?
業(yè)務(wù)連續(xù)性管理(BCM)從本質(zhì)上說不僅僅是一個(gè)技術(shù)問題,而是一個(gè)包含著技術(shù)問題,業(yè)務(wù)問題和管理問題的綜合體。對于一些大型公司而言,業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)工作應(yīng)該向企業(yè)風(fēng)險(xiǎn)管理部門匯報(bào)。而在一些較小的組織里,這個(gè)角色應(yīng)該向首席運(yùn)營官(COO)或者同時(shí)向COO和CTO(首席技術(shù)官)匯報(bào)。風(fēng)險(xiǎn)有可能出現(xiàn)在IT技術(shù)上,也有可能出現(xiàn)在業(yè)務(wù)流程上或管理制度里,有些可能是有一些意外事件導(dǎo)致的,而有些也有可能是由于人為原因造成的。當(dāng)災(zāi)難來臨時(shí),我們是否有響應(yīng)的預(yù)案,讓業(yè)務(wù)按照我們事先規(guī)劃好的路徑演進(jìn),這就是業(yè)務(wù)連續(xù)性管理所要討論的問題。
業(yè)務(wù)連續(xù)性管理(BCM)的目標(biāo)和方法
業(yè)務(wù)連續(xù)性問題既是一個(gè)技術(shù)問題也是一個(gè)業(yè)務(wù)問題,但歸根到底還是一個(gè)業(yè)務(wù)問題。因此在目標(biāo)上也是為了最大限度地保證在災(zāi)難發(fā)生時(shí)業(yè)務(wù)損失最小化,業(yè)務(wù)連續(xù)性最大化。因此在業(yè)務(wù)保護(hù)方法上分為兩種,分別是連續(xù)性保護(hù)和恢復(fù)性保護(hù)。
正所謂”再好的刀傷藥也抵不上不剌口”。連續(xù)性保護(hù)方法的目標(biāo)就是最大化地做好事前預(yù)防工作,盡量不讓災(zāi)難發(fā)生。例如在IT技術(shù)領(lǐng)域最常見的方法如“消除單點(diǎn)故障”技術(shù),并行處理技術(shù),DevOps技術(shù)等。在業(yè)務(wù)領(lǐng)域,如事前的合規(guī)性審查,集中授權(quán)等。在管理領(lǐng)域,如定期的設(shè)備巡檢,定期的業(yè)務(wù)Review等。都可以有效地避免風(fēng)險(xiǎn)的發(fā)生和發(fā)展。
當(dāng)由于某些不可控的原因?qū)е聻?zāi)難已經(jīng)發(fā)生時(shí),就必須采用一系列的恢復(fù)性保護(hù)方法來保證業(yè)務(wù)安全了。在IT技術(shù)領(lǐng)域最常用的方法如備份/恢復(fù)技術(shù),DR技術(shù)等。在業(yè)務(wù)和管理領(lǐng)域也有相應(yīng)的技術(shù)和方法。因此本次事件從技術(shù)上講就是因?yàn)椤扒把財(cái)?shù)控”在數(shù)據(jù)安全性上采用了數(shù)據(jù)高可靠方法,而沒有另外采用備份恢復(fù)策略。一旦數(shù)據(jù)出現(xiàn)邏輯錯(cuò)誤,三份數(shù)據(jù)全部不可用。更尷尬的是還沒有可恢復(fù)的數(shù)據(jù),哪怕是幾天前的。
業(yè)務(wù)連續(xù)性管理的流程
當(dāng)災(zāi)難發(fā)生時(shí),救人永遠(yuǎn)都是第一位的。特別是在如化工廠、或其他高危環(huán)境的組織發(fā)生災(zāi)難時(shí)更是這樣。這是BCM一貫的價(jià)值觀。在保證人員安全的前提下,盡最大努力保證企業(yè)核心資產(chǎn)的安全才會(huì)變成一項(xiàng)重要任務(wù)。
第二項(xiàng)任務(wù)就是BIA方法了。為了分析災(zāi)難對業(yè)務(wù)的影響,以及業(yè)務(wù)在災(zāi)難恢復(fù)當(dāng)中的優(yōu)先級,我們最常使用的一項(xiàng)技術(shù)使“業(yè)務(wù)影響分析”方法(BIA)。BIA方法通常有兩大目標(biāo):
1. 識(shí)別事件對組織或其流程可能產(chǎn)生的潛在影響,以及用來定量和定性評估這些影響的標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)可能來自財(cái)務(wù)、運(yùn)營、客戶、法規(guī)及名譽(yù)等多個(gè)維度。
2. 在組織內(nèi)以業(yè)務(wù)優(yōu)先級為基礎(chǔ)統(tǒng)一地定義組織每一流程的恢復(fù)時(shí)間目標(biāo)(RTO)和恢復(fù)點(diǎn)目標(biāo)(RPO)
在第二點(diǎn)中通常有兩個(gè)問題需要注意。
問題1:企業(yè)的核心系統(tǒng)通常是最先恢復(fù)的系統(tǒng)嗎?
答案是不一定。要看具體的客戶行業(yè)和背景。筆者曾經(jīng)半開玩笑地問過一個(gè)銀行業(yè)客戶一個(gè)問題:“如果某一天你們的數(shù)據(jù)中心著火了,請問你覺得最先需要恢復(fù)的業(yè)務(wù)系統(tǒng)是哪一個(gè)?”客戶回答:“核心系統(tǒng)”。我回答:“不一定,我覺得可能是800/400的Call Center系統(tǒng)。”為什么?試想一下,銀行總部大樓著火了,這個(gè)消息會(huì)分分鐘的傳遍整個(gè)朋友圈。如果你是這個(gè)銀行的儲(chǔ)戶你會(huì)是什么反應(yīng)?“我的錢還在嗎?”,“我下個(gè)月的貸款還用不用還了?”如果這時(shí)候800電話2天打不通會(huì)有什么后果?一群大爺大媽分分鐘包圍每一個(gè)儲(chǔ)蓄所,然后拉橫幅靜坐“還我血汗錢”,然后就是媒體鋪天蓋地的報(bào)道,然后就是更多人加入靜坐和擠兌…… 因此合理引導(dǎo)客戶預(yù)期在這個(gè)時(shí)候比恢復(fù)系統(tǒng)更重要。
問題2:RTO和RPO是業(yè)務(wù)目標(biāo)還是技術(shù)目標(biāo)?
經(jīng)常會(huì)有一些朋友有這樣一個(gè)誤區(qū),認(rèn)為RTO和RPO是一個(gè)技術(shù)目標(biāo)。當(dāng)然上述兩個(gè)目標(biāo)有很大的技術(shù)目標(biāo)的部分。但是從業(yè)務(wù)連續(xù)性的廣義性上將,上述兩個(gè)目標(biāo)應(yīng)該被歸納到業(yè)務(wù)目標(biāo)的范圍。及組織業(yè)務(wù)真正恢復(fù)的恢復(fù)時(shí)間和恢復(fù)點(diǎn)。從技術(shù)和業(yè)務(wù)兩種不同角度出發(fā),在這兩個(gè)目標(biāo)當(dāng)中對RTO的影響相對較大。因此從這個(gè)廣義上講可能真的不存在什么雙活。因?yàn)楫?dāng)災(zāi)難真真切切發(fā)生時(shí),及時(shí)IT系統(tǒng)看上去都是好的。誰能保證沒有一點(diǎn)業(yè)務(wù)損失呢?是否應(yīng)該在重新啟動(dòng)業(yè)務(wù)前,需要對業(yè)務(wù)系統(tǒng)的每筆業(yè)務(wù)完整性做一次校驗(yàn),當(dāng)校驗(yàn)完成后才能開門營業(yè)呢?
在做完業(yè)務(wù)的BIA分析后,下一項(xiàng)任務(wù)就是為每一個(gè)業(yè)務(wù)場景制定業(yè)務(wù)連續(xù)性策略了。在這個(gè)階段將通過一系列的技術(shù)和業(yè)務(wù)手段告訴董事會(huì)我們該如何達(dá)到之前BIA分析中所規(guī)定的RTO和RPO目標(biāo)。這一階段的目標(biāo)主要有如下幾點(diǎn):
1. 通過一系列的技術(shù)和業(yè)務(wù)策略來滿足BIA所規(guī)劃的RTO和RPO目標(biāo)
2. 通過成本分析法,制定過渡架構(gòu)和遷移計(jì)劃。即標(biāo)識(shí)出先做哪個(gè)后做哪個(gè)
3. 獲得管理層的批準(zhǔn)并分步實(shí)施這些策略
演練與維護(hù)也是業(yè)務(wù)連續(xù)性管理中最最重要,不可獲取的組成部分。要想保證業(yè)務(wù)連續(xù)性計(jì)劃長期有效,這需要組織架構(gòu)的支持和資金的長期支持。這一點(diǎn)最容易被管理層忽略。因此這一點(diǎn)應(yīng)該在業(yè)務(wù)連續(xù)性管理項(xiàng)目提出時(shí)就向管理層首先提出來,并得到長期預(yù)算支持的許可。
另外關(guān)于支持企業(yè)業(yè)務(wù)連續(xù)性管理的IT技術(shù)方面,由于存在太多的架構(gòu)和產(chǎn)品,總體上包括采用更可靠的設(shè)備、更可靠的架構(gòu)、創(chuàng)建永久的災(zāi)備站點(diǎn)技術(shù)設(shè)施等,在這里就不一一贅述了。
總之,這場大戲還沒收場,我和各位看官一樣,抱著看熱鬧的不嫌事兒大的心理等待著第二季的播出。最后祝前沿?cái)?shù)控好運(yùn),祝鵝廠好運(yùn)!
版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。