在亞馬遜、阿里云、字節(jié)跳動(dòng)等互聯(lián)網(wǎng)巨頭扎堆在大數(shù)據(jù)領(lǐng)域布局“湖倉(cāng)一體”解決方案之時(shí),《》記者注意到,8月11日,網(wǎng)易旗下網(wǎng)易數(shù)帆也宣布聯(lián)合華泰證券推出企業(yè)級(jí)流式湖倉(cāng)服務(wù)Arctic開源。
“湖倉(cāng)一體”技術(shù)為何被各大互聯(lián)網(wǎng)企業(yè)、大數(shù)據(jù)公司競(jìng)相看中?它能解決哪些痛點(diǎn)?背后反映了怎樣的技術(shù)趨勢(shì)?
(資料圖)
流批割裂,金融行業(yè)數(shù)智中臺(tái)建設(shè)面臨挑戰(zhàn)
目前,企業(yè)對(duì)數(shù)據(jù)庫(kù)技術(shù)的需求不再局限于結(jié)構(gòu)化的OLTP數(shù)據(jù)交易,而是需要進(jìn)一步擴(kuò)展到對(duì)多樣化數(shù)據(jù)進(jìn)行實(shí)時(shí)處理的場(chǎng)景。傳統(tǒng)的數(shù)據(jù)湖在事務(wù)一致性及實(shí)時(shí)處理方面有所欠缺,而數(shù)據(jù)倉(cāng)庫(kù)也無法應(yīng)對(duì)高并發(fā)、多數(shù)據(jù)類型的處理。
“湖倉(cāng)一體”,被業(yè)內(nèi)認(rèn)為是新一代數(shù)據(jù)管理架構(gòu)。賽迪顧問7月15日發(fā)布的《湖倉(cāng)一體技術(shù)研究報(bào)告》顯示,湖倉(cāng)一體是一種新型的開放式架構(gòu),打通了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖,將數(shù)據(jù)倉(cāng)庫(kù)的高性能及管理能力與數(shù)據(jù)湖的靈活性融合了起來,底層支持多種數(shù)據(jù)類型并存,能實(shí)現(xiàn)數(shù)據(jù)間的相互共享,上層可以通過統(tǒng)一封裝的接口進(jìn)行訪問,可同時(shí)支持實(shí)時(shí)查詢和分析,為企業(yè)進(jìn)行數(shù)據(jù)治理帶來了更多的便利性。湖倉(cāng)一體可在數(shù)據(jù)入湖后原地進(jìn)行數(shù)據(jù)處理與分析,能有效避免數(shù)據(jù)冗余及流動(dòng)導(dǎo)致的算力、網(wǎng)絡(luò)及成本開銷,可以作為超大型ODS存儲(chǔ)貼源數(shù)據(jù),實(shí)現(xiàn)全量數(shù)據(jù)的實(shí)時(shí)處理。
以金融證券行業(yè)為例,近年來,券商在加大自研技術(shù)投入,不過,“流批割裂”成為部分券商數(shù)智中臺(tái)建設(shè)的挑戰(zhàn)之一?!啊畬?shí)時(shí)’是數(shù)智中臺(tái)的核心訴求,流批割裂則是落地的一大挑戰(zhàn)。”華泰證券大數(shù)據(jù)流計(jì)算技術(shù)專家陳豐通過騰訊會(huì)議介紹,實(shí)時(shí)湖倉(cāng)在華泰證券日內(nèi)數(shù)據(jù)離線加工、實(shí)時(shí)關(guān)聯(lián)大量歷史數(shù)據(jù)、金融數(shù)據(jù)頻繁修正、統(tǒng)一埋點(diǎn)加工鏈路等方面具有極大的價(jià)值。
然而,當(dāng)前數(shù)倉(cāng)建設(shè)面臨流批鏈路分開建設(shè)、純實(shí)時(shí)業(yè)務(wù)邏輯復(fù)雜、數(shù)據(jù)存儲(chǔ)不統(tǒng)一、數(shù)據(jù)更新復(fù)雜以及演進(jìn)難等五大問題。
網(wǎng)易數(shù)帆大數(shù)據(jù)產(chǎn)品線總經(jīng)理余利華也通過騰訊會(huì)議表示,金融企業(yè)希望融合實(shí)時(shí)數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù),打造實(shí)時(shí)數(shù)據(jù)中臺(tái)支撐其數(shù)字化業(yè)務(wù)創(chuàng)新,這本質(zhì)上正是湖倉(cāng)一體的思路。然而,余利華也認(rèn)識(shí)到,目前的主流數(shù)據(jù)湖技術(shù)等只解決了更新、大表訪問性能、流式消費(fèi)等問題,仍然遺留小文件導(dǎo)致性能損耗、兼容性和流失更新等性能和易用性相關(guān)問題,而開源社區(qū)尚未出現(xiàn)對(duì)應(yīng)的解決方案。
使數(shù)據(jù)中臺(tái)體系無縫擴(kuò)展到實(shí)時(shí)場(chǎng)景
在接受《》記者采訪時(shí),余利華表示,亞馬遜、阿里云等云廠商推出的“湖倉(cāng)一體”技術(shù),更多是面向最終用戶的云服務(wù)。而湖倉(cāng)一體Arctic,其實(shí)不是云服務(wù),而是獨(dú)立的開源軟件。理論上來講,開源軟件是可以被集成到各家客戶自己的平臺(tái)里,甚至包括云廠商,網(wǎng)易數(shù)帆的目的是幫大家更快地去落地湖倉(cāng)一體。
余利華表示,秉承開放式架構(gòu)原則,Arctic立足開源數(shù)據(jù)湖,不綁定計(jì)算引擎,注重與傳統(tǒng)數(shù)倉(cāng)Hive的兼容,能做到100%兼容Iceberg/Hive的表格式和語法。這是繼SQL統(tǒng)一入口之后,網(wǎng)易數(shù)帆大數(shù)據(jù)體系再次在存儲(chǔ)層面實(shí)現(xiàn)統(tǒng)一,這使得數(shù)據(jù)中臺(tái)體系可以無縫擴(kuò)展到實(shí)時(shí)場(chǎng)景,金融數(shù)據(jù)價(jià)值的發(fā)揮將不再被孤島所困擾。
“我們也看到客戶有量化交易的需求,有風(fēng)控方面的需求,這些對(duì)實(shí)時(shí)性的要求特別高?!睂?duì)于網(wǎng)易數(shù)帆在金融大數(shù)據(jù)方面的發(fā)展布局,余利華表示,對(duì)數(shù)帆來說,金融行業(yè)是一個(gè)重點(diǎn)行業(yè),目標(biāo)是希望能成為金融行業(yè)領(lǐng)先的大數(shù)據(jù)技術(shù)軟件的提供商。
網(wǎng)易數(shù)帆的關(guān)注點(diǎn)則在于大數(shù)據(jù)的基礎(chǔ)軟件?!翱蛻魰?huì)自己負(fù)責(zé)他的大數(shù)據(jù)業(yè)務(wù),那么我們主要是在基礎(chǔ)軟件這方面為客戶賦能。為此,首先我們一直在做信創(chuàng)和安全方面的工作,因?yàn)榻鹑谔貏e注重安全;第二個(gè)是要去建設(shè)面向金融行業(yè)的數(shù)據(jù)研發(fā)產(chǎn)品,也就是DataOps的產(chǎn)品?!庇嗬A說。
標(biāo)簽: 數(shù)據(jù)倉(cāng)庫(kù) 實(shí)時(shí)處理 華泰證券
熱門