隨著數據智能、云計算、人工智能等信息技術在金融領域的廣泛應用,許多傳統金融服務紛紛從原來的離線走向了在線。金融創新除了緣于數字時代的生產生活對金融服務的高品質、多元化需求,還基于金融機構經營活動中產生的海量數據資源和強大的計算能力。如今,無論是信貸、支付、理財等傳統金融服務,還是供應鏈金融、智能投顧、數字貨幣等新型服務形態,其背后都離不開算力和算法的支撐。在此背景下,云原生技術得到了包括金融業在內的相關行業的高度重視,并成為推動金融業數字化轉型的重要利器。
云原生的定義
所謂云原生(Cloud Native),從字面上理解就是生長在云上。這一概念在2013年被Pivotal公司首次提出,后經云原生計算基金會(Cloud Native Computing Foundation,CNCF)進一步發展和提煉,形成狹義云原生概念,其內容包括容器技術、服務網格、微服務、不可變基礎設施和聲明式API等。隨著云計算技術的發展和普及,越來越多的新技術生于云、長于云。因云而生的各種產品、技術、軟件、硬件、架構逐漸擴展成了廣義云原生概念。如今,云原生不僅僅是一項技術,還是一套敏捷架構方法,既包含技術范疇(如云計算、微服務、DevOps、云原生芯片、云原生大數據、云原生AI等),也包含管理和架構范疇(如架構體系設計、中臺化、編排重組、持續交付、無服務化等)。隨著云原生體系不斷豐富,應用落地也在持續增加,因其應用簡便,部署快捷、伸縮靈活,已逐步成為數字化時代企業技術架構升級路徑中的一項進階選擇。
隨著云原生逐漸從社區走向金融機構,適應金融場景要求的云原生架構逐步形成。如果把過去金融業集中式架構(中央大腦)的統一控制視為坐標軸的“左端”,完全開源式的分布式云原生作為坐標軸的“右端”,那么在金融級云原生架構下,金融機構所需要的技術架構就是在左右兩端之間尋求一個平衡點,做到既擁有金融級的安全性、強一致性、可靠性,又具備適當的容錯性、可擴展性和快速響應的能力。以“強局部自治、弱中心控制”為原則,金融級云原生架構把那些需要綜合多方因素判斷的復雜邏輯交由全局系統(中央大腦)完成,發揮其匯聚全局要素和高效計算的優勢,而大量的日常簡單判斷和執行動作則可放在局部系統內閉環完成,提升容錯性和敏捷應變能力,進而提高整個系統的穩健性。
在新冠肺炎疫情沖擊下,許多金融機構快速構建線上服務、云上營業廳、音視頻服務、場景金融服務、產業金融服務,為個人和企業客戶等提供了便捷和全時在線的數字金融服務。這類數字金融服務對相關應用的敏捷性、彈性和韌性提出了更高要求,金融機構需要在短時間內上線新應用,快速伸縮資源以滿足突增的訪問量,確保系統持續正常運轉。這種敏捷應變的需求是單靠傳統IT架構難以實現的。金融級云原生架構便成為這些機構加快系統迭代升級、跟上金融數字化轉型步伐的利器。從本質上看,金融級云原生包括規范用云的架構模式、技術標準、管理理念、應用實施的工具和方法,其目標是讓金融機構擺脫對基礎設施的大量投入,將精力集中到業務創新和產品研發上來。借助云原生理念和工具,金融機構可以像使用水電氣等公共設施那樣,使產品設計、開發調試、部署測試、資源消費等業務能夠即插即用地對接到任何一朵云上,從而在節省資源的同時實現靈活的部署運行,并獲得強大的算力支持和安全保障。
金融級云原生的演進之路
過去40年,我國金融行業IT架構經歷了多次變遷,大致可以劃分為分散式架構、集中式架構、“分布式+集中式”雙核架構三個階段。20世紀80年代,金融機構開始引入主機系統,此時構建的業務系統高度分散,效率較低。90年代末,隨著計算機性能的提升和網絡設施的發展,銀行對資源和數據集中的需求愈發強烈,“數據大集中”成為當時金融IT建設的主要任務。主機承載的大集中模式顯著提升了IT處理效能,但集中管理也帶來了運維成本過高、業務創新迭代速度下降等問題。對此,一些金融機構開始借鑒互聯網公司的模式,將部分外圍業務轉向分布式架構。2017年左右,分布式架構開始引起金融機構的重視,并與大集中架構融合共同形成目前銀行IT系統的主流架構。2020年疫情帶來線上業務劇增,要求銀行快速適應遠程服務模式;同時,消費互聯網和產業互聯網發展加速,拉動金融服務與紛繁多變的場景深度融合。面對復雜多變的環境,金融機構既要維持系統的穩定連續,又要隨機應變、快速創新,IT框架迭代升級的緊迫性更加突出,越來越多的銀行開始將云原生作為下一代IT系統升級的核心技術架構。
在金融級云原生架構中,分布式與云計算是一對最佳組合。分布式是云計算的技術實現形式,云計算是傳統分布式的延伸。分布式云原生有助于應用的靈活延伸,云計算則可以提高系統的易管理性、用戶友好性和操作彈性。二者組合,將使金融機構最大程度地分享到云計算的紅利。然而,任何技術創新和系統迭代都需要通過一定時間的多方實踐加以檢驗。從目前的情況看,金融級云原生架構轉型不太可能一蹴而就。一方面,從監管合規要求來看,金融的特殊性決定了它必須是一個強隔離、強監管的行業,如何確保新技術應用過程中業務連續、數據安全和隱私保護符合監管規則,仍有待探索;另一方面,金融機構的信息化水平一直走在各行業的前列。然而,為保護既有投資,每家金融機構平均上百個系統反而可能成為IT架構升級迭代的掣肘。如何實現新技術與傳統架構的融合并存,無疑也是金融數字化轉型中面臨的巨大挑戰。
但從長期來看,隨著數字經濟和新技術的發展,金融業務敏捷化、場景化、遠程化乃是大勢所趨。云原生架構可以賦能金融機構加快需求交付、降低運營成本、支持容量伸縮、保證業務連續,從而使業務能更從容地接入創新技術、提升渠道的廣泛觸達能力。
金融數字化也是業務和技術的不斷互相促進的過程。為了滿足業務創新發展的需求,金融機構的IT架構也在漸進式地迭代和升級:從集中式(大型機、小型機)到開放式(云化基礎設施),從狹義云原生到廣義云原生。
金融級云原生是廣義云原生在金融領域的增強版,是將過去在應用層做的大量工作(比如彈性擴展、服務升降級、容災切換等)下沉到云平臺層去實現,讓應用只需要關注客戶體驗與業務邏輯。
行業實踐
經過多年的探索,目前金融級云原生技術已經在金融業數字化轉型中形成了一些行之有效的應用方案。
多活+單元化架構
金融機構在建設多活的數據中心時,兩個數據中心之間的物理距離可能會導致跨數據中心的交易服務訪問延時過大甚至出現超時。在這種情況下,計算跟存儲之間的跨城通訊是不滿足業務需求的。
如果采用單元化架構,計算跟存儲基本封閉在一個邏輯數據中心(Logical Data Center,LDC)里面完成,可以根據需求控制交易服務的流量,及時調節訪問壓力。在跨城、跨數據中心的多活應用部署情況下,業務訪問根據路由策略進入LDC的某個單元內,絕大多數業務服務交互可以在一個單元內就近調用訪問完成,避免出現大量的跨數據中心交互訪問,交易的延遲性問題也可以得到很好的控制。此外,有些業務仍會存在跨單元、跨數據中心、跨城通信情況,業務訪問也將基于最小化數據跨域的服務調用策略進行交互訪問,可以最大化地解決跨城數據服務通訊的時滯問題(見圖1)。
故障隔離和自愈
金融機構對系統穩定性要求極高,物理服務器故障對業務產生的影響很大。如果物理服務器規模較小,很容易導致部分核心系統的應用服務分布過于集中,一旦服務器宕機,勢必直接影響業務的正常開展,后果十分嚴重。基于云原生架構,金融機構可根據業務特點和應用等級去制定策略,確保所有的調度不會集中在個別的物理服務器上,即把負載“打散”。此外,在云原生架構下,金融機構可以隨時監控和探測系統的健康狀態,配置中心能自動發現物理服務器上的容器問題并及時報警和自動處置。
精細化處理
業務場景增多、業務變化加快、業務模塊之間關聯度日趨復雜,會造成系統運行中出現突發事件。有一些平常流量非常少的業務場景在業務量突然增大后,會導致周邊相關系統受到沖擊。這種情況很可能導致部分服務器請求遭到積壓,情況嚴重時會出現“雪崩”效應,從而使業務陷于癱瘓。此外,金融交易中經常遇到的熱點賬戶問題,也很容易導致全行的“交易抖動”。如果可以識別甚至預判不同業務所導致的熱點并做到有效隔離,那么偶發情況就不會影響到其他業務場景。
云原生架構的核心價值是可以實現流量的精細化隔離。在云原生架構之下,基于模塊化開放智能網絡(Modular Open Smart Network,MOSN)的服務網格技術,金融機構可以實現更細粒度流量調撥,使流量調撥從數據中心層面進一步聚焦到單個應用級別,選擇一些不敏感的應用服務先切流,從而避免影響到關鍵業務的正常開展。基于新的云原生能力,在流量轉發的過程,調度系統具備染色能力,可以在流量通過MOSN時進行標記,使之“路由”到指定的一些容器上。這樣,不同的業務請求就會被“路由”到不同的容器集群里,從而降低不同業務之間的相互影響,同時還可逐步實現對國產運行環境的切換。
應用發布能力
高效靈活的應用發布變更是金融級云原生的重要能力。對于金融機構來說,每次發布必須做到審批有據可查,數據安全無損,過程可實時監控,應急可回退復原。金融級云原生可以將安全生產理念融入應用發布的全流程管理,在架構層面上提供“可灰度,可回滾(應急),可監控、可審計”的能力。
結束語
經過多年的實踐探索,阿里云將云原生的架構原則與金融行業實踐相結合,形成了一套金融級云原生的方法論和工具箱,包含云原生成熟度評估模型、架構藍圖以及實施路徑,并配套形成金融級云原生的技術框架體系。這些方法和技術框架體系具有一定的通用性,可以幫助金融機構尋求適合自身定位的架構迭代路徑,滿足多元化的業務創新需求,適應日益嚴苛的場景考驗,賦能金融機構加快數字化轉型。■
凡注有"環球傳媒網"或電頭為"環球傳媒網"的稿件,均為環球傳媒網獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網",并保留"環球傳媒網"的電頭。