3
發(fā)布日期:2024-06-04 09:51 瀏覽次數(shù):
本文首先介紹了大數(shù)據(jù)架構(gòu)平臺的組件架構(gòu),讓讀者了解大數(shù)據(jù)平臺的全貌,然后分別介紹數(shù)據(jù)集成、存儲與計(jì)算、分布式調(diào)度、查詢分析等方面的觀點(diǎn),最后是專家眼里大數(shù)據(jù)平臺架構(gòu)的發(fā)展趨勢。
從圖上可以看出,大數(shù)據(jù)架構(gòu)平臺分為:數(shù)據(jù)集成、存儲與計(jì)算、分布式調(diào)度、查詢分析等核心模塊。我們就沿著這個(gè)架構(gòu)圖,來剖析大數(shù)據(jù)平臺的核心技術(shù)。
數(shù)據(jù)集成非常重要,因?yàn)楦鷺I(yè)務(wù)方相關(guān)的第一個(gè)環(huán)節(jié)就是數(shù)據(jù)集成,數(shù)據(jù)集成如果出現(xiàn)問題比如速度慢、丟數(shù)據(jù)等,都會影響到業(yè)務(wù)方數(shù)據(jù)的使用,也會影響業(yè)務(wù)方對大數(shù)據(jù)平臺的信任度。
Pulsar 跟Kafka很像,不過架構(gòu)比Kafka更先進(jìn),屬于后起之秀。
● 離線的場景很豐富,但是缺乏處理的非常好的統(tǒng)一的計(jì)算引擎,hive和spark都無法做到,所以這一塊未來還有很大的發(fā)揮空間。
● Flink的優(yōu)點(diǎn)是:可以實(shí)時(shí)的進(jìn)行計(jì)算,在處理流計(jì)算這個(gè)方向上是最好的組件,而且?guī)缀蹩梢蕴娲鼘?shí)時(shí)的業(yè)務(wù)場景。
a. Flink在流處理穩(wěn)定性上,雖然已經(jīng)做到極細(xì)粒度,但是遇到阻塞時(shí),會存在丟失數(shù)據(jù)的問題。需要加強(qiáng)穩(wěn)定性。
b. 實(shí)時(shí)性的提升:實(shí)時(shí)的優(yōu)化是無底洞,業(yè)務(wù)需求能到秒級別、毫秒級別,怎么能讓Flink在業(yè)務(wù)場景用的好,提升速度的同時(shí),保持?jǐn)?shù)據(jù)一致性,是Flink面臨的挑戰(zhàn)。
數(shù)據(jù)編排最為強(qiáng)大,市面上常見的存儲系統(tǒng)、云存儲服務(wù)均可以直接接入,也可以自行實(shí)現(xiàn)相關(guān) api 以接入其他自研存儲系統(tǒng),可以說 Alluxio 最為通用,既可用于云存儲服務(wù)的緩存接入或數(shù)據(jù)編排,也可作為傳統(tǒng) HDFS 的多集群數(shù)據(jù)編排。
● 提供了和 Alluxio 非常相似的功能,如元數(shù)據(jù)與數(shù)據(jù)分離的存儲、數(shù)據(jù)編排、與 Hadoop API 兼容、Fuse 等特性;
● JuiceFS 也有不錯(cuò)的數(shù)據(jù)編排特性,元數(shù)據(jù)存儲的方式比 Alluxio 更多元,主要用于云存儲場景。
最后,我們請專家們聊了一下大數(shù)據(jù)平臺架構(gòu)的發(fā)展趨勢,專家們發(fā)表了以下看法:
Olap 基于云原生的架構(gòu)體系,基礎(chǔ)系統(tǒng)構(gòu)建 ok,無限彈性。計(jì)算資源也無限彈性。
過去 3 年,很多用戶紛紛選用對象存儲系統(tǒng)保存數(shù)據(jù),不僅是因?yàn)槠渥陨淼膬r(jià)格優(yōu)勢,還可以減少維護(hù)的麻煩。對象存儲適用的場景非常多,包括:存算分離、數(shù)據(jù)分層、多數(shù)據(jù)源分類以及應(yīng)用于數(shù)據(jù)湖等等。
我們知道,云原生具有很好的彈性、可拓展能力,在未來必定會越來越受到重視。結(jié)合當(dāng)下發(fā)展,仍然存在一些待解決的問題:
云原生要考慮到分布式技術(shù)、編排、上云方式等,穩(wěn)定性和上云集成是目前的挑戰(zhàn)。目前云上不是特別穩(wěn)定,需要繼續(xù)觀察。
1. 張耀東:小米高級研發(fā)工程師,先前就職于百度、武漢安天從事后端和移動安全大數(shù)據(jù)平臺相關(guān)研發(fā),目前在小米大數(shù)據(jù)中臺部門負(fù)責(zé) OLAP 服務(wù)研發(fā)工作。
2. 祝江華:網(wǎng)易資深大數(shù)據(jù)工程師,現(xiàn)網(wǎng)易大數(shù)據(jù)平臺離線存儲組,目前主要針對 Hadoop&HDFS 集群的開發(fā),優(yōu)化及改進(jìn)落地工作。有多年大數(shù)據(jù)開發(fā),大數(shù)據(jù)平臺研發(fā)經(jīng)驗(yàn),目前專注于分布式存儲與計(jì)算工作。
3. 范禹辰:網(wǎng)易高級服務(wù)端開發(fā)工程師,2020 年加入網(wǎng)易工作至今,主要負(fù)責(zé)分布式數(shù)據(jù)編排系統(tǒng) Alluxio 和分布式查詢引擎 Impala 的開發(fā)工作。