3
發(fā)布日期:2024-09-11 04:56 瀏覽次數(shù):
4166am金沙信心之選在數(shù)據(jù)驅(qū)動的時代,如何有效地利用大數(shù)據(jù)已經(jīng)成為了各個行業(yè)的重要課題。而隨著云計算、人工智能等新興技術(shù)的蓬勃發(fā)展,數(shù)據(jù)技術(shù)也隨之不斷生長并呈現(xiàn)出新的趨勢與特點,企業(yè)該如何把握數(shù)據(jù)技術(shù)的新脈絡(luò),從而洞察數(shù)據(jù)背后的價值?
2023 年 8 月 19 日,由騰訊云 TVP 主辦的第八屆 Techo TVP 開發(fā)者峰會“數(shù)據(jù)驅(qū)動智能,智能賦能未來”圓滿落下帷幕,本屆峰會聚集了 6 位來自數(shù)據(jù)技術(shù)行業(yè)的領(lǐng)袖和專家,圍繞數(shù)據(jù)技術(shù)的最新進展、方向趨勢、創(chuàng)新應(yīng)用進行了精彩分享及深入交流,為廣大開發(fā)者提供思想和實踐的啟示。
本次峰會由騰訊云 TVP 盧東明老師擔(dān)任主持人,盧東明也是專注于大數(shù)據(jù)及AI領(lǐng)域的訪談欄目《明說三人行》的創(chuàng)始人兼主持人,被人稱為明叔。峰會伊始,明叔借用英國著名小說家狄更斯在《雙城記》中的經(jīng)典語錄做了開場:這是中國數(shù)據(jù)技術(shù)最好的時代,也是最壞的時代。這是中國歷史上數(shù)據(jù)庫和大數(shù)據(jù)技術(shù)發(fā)展周期最繁榮的時刻,但眼花繚亂的技術(shù)體系和不斷更迭的產(chǎn)品,也為開發(fā)者和企業(yè)帶來了前所未有的挑戰(zhàn)。面對眾多的數(shù)據(jù)庫技術(shù)該如何選擇,又該如何組合來應(yīng)對不同的目標,是企業(yè)和開發(fā)者們需要去思考和厘清的重要議題。
《精益數(shù)據(jù)方法論》作者&創(chuàng)始人、騰訊云 TVP 史凱老師帶來了《AI 全民化下數(shù)據(jù)平臺的四大趨勢》的主題分享。
史老師指出我們正在由“數(shù)據(jù)全民化”快速邁入“AI 全民化”時代,在數(shù)據(jù)全民化的時代,所有人都能夠被數(shù)據(jù)所賦能,通過對數(shù)據(jù)的運用和分析獲得實時的反饋與洞見。而隨著 ChatGPT 的出現(xiàn),AI 全民化的時代正在迅速到來。在未來,人工智能將普惠每一個人,同時也將給企業(yè)數(shù)據(jù)平臺帶來巨大挑戰(zhàn),即無限增長的數(shù)據(jù)應(yīng)用需求,與有限割裂的數(shù)據(jù)生產(chǎn)力之間的矛盾。但大模型的出現(xiàn),給予了數(shù)據(jù)人員新的想象空間,大家都寄希望于 AI 技術(shù)能夠幫助數(shù)據(jù)生產(chǎn)、數(shù)據(jù)分析,并加速數(shù)據(jù)源到價值的產(chǎn)生。
●數(shù)據(jù)平臺價值顯性化,隨著企業(yè)對于數(shù)據(jù)的投資越來越大,更多的企業(yè)希望數(shù)據(jù)能夠直接為業(yè)務(wù)產(chǎn)生價值,這對于數(shù)據(jù)平臺也帶來了新的挑戰(zhàn),那就是如何將數(shù)據(jù)平臺的價值直接關(guān)聯(lián)到業(yè)務(wù)價值;
●數(shù)據(jù)平臺架構(gòu)現(xiàn)代化,數(shù)據(jù)平臺將朝著融合分析、易用、可信、去中心化的方向發(fā)展,以 Data Fabric/Data Mesh 等為代表的新數(shù)據(jù)架構(gòu)實踐正在逐漸興起;
●AIGC 賦能的數(shù)據(jù)價值鏈,數(shù)據(jù)平臺將融合 AIGC 的新技術(shù)消除企業(yè)數(shù)據(jù)生產(chǎn)價值鏈里的浪費;
●AIGC 能力平臺化、服務(wù)化,AIGC 將成為企業(yè)隨用隨調(diào)的能力,一般的企業(yè)不需要搭建自己的大模型,而應(yīng)關(guān)注如何融合大模型的能力深化數(shù)據(jù)的價值挖掘。
分享最后,史凱老師為大家總結(jié)了一句話:“數(shù)字化轉(zhuǎn)型源于問題,始于業(yè)務(wù),成于數(shù)據(jù),落于場景,量于價值,終于組織?!睙o論數(shù)據(jù)平臺如何演進,如何從業(yè)務(wù)中成長,用數(shù)據(jù)灌溉,在場景中落地,并最終呈現(xiàn)業(yè)務(wù)價值,推動企業(yè)的整體數(shù)字化才是企業(yè)關(guān)注的核心命題。
從技術(shù)暢想,回歸企業(yè)數(shù)據(jù)治理的現(xiàn)實情況,在粗放型增長向集約型增長轉(zhuǎn)變的今天,如何降本增效,提高數(shù)據(jù)效能,是企業(yè)和開發(fā)者關(guān)注的重心。騰訊云 ES 研發(fā)總監(jiān)高攀老師分享了《兼具成本和易用騰訊云 ES 云原生 Serverless 演進之路》。
高攀老師介紹道,騰訊云 ES是在騰訊云云原生一站式的全托管的 ELKB 服務(wù),基于開源 ES,圍繞成本、性能、穩(wěn)定性、擴展性等方面進行自研內(nèi)核改造,實現(xiàn)成本下降 50~80%,查詢性能提升 3~10 倍,寫入性能提升 2 倍,SLA 到 99.99%,擴展性提升 10 倍以上。
騰訊云大數(shù)據(jù) ES 的服務(wù)場景非常豐富,日志是其中最常見、規(guī)模最大的場景,由于日志價值密度相對較低,但規(guī)模通常較大,因此企業(yè)在日志場景下的關(guān)注重點在于成本控制,因此騰訊云大數(shù)據(jù) ES 圍繞成本進行了大量優(yōu)化改進,通過鏈路集成、索引自治、存算分離等技術(shù)大幅降低接入成本、運維成本、資源成本。
成本問題迎刃而解,高攀老師還希望在易用性上持續(xù)提升,為用戶提供一項一站式的大數(shù)據(jù)分析服務(wù)。雖然各廠商基于最底層的 ES 內(nèi)核,提供了 PaaS 化的 ES 服務(wù),但用戶在集群創(chuàng)建、數(shù)據(jù)鏈路配置、索引生命周期管理等運維工作上仍需耗費精力。因此他和團隊在騰訊云 PaaS 版 ES 服務(wù)的基礎(chǔ)上加以改進,推出了不需要關(guān)心集群和節(jié)點,免運維的 Serverless ES 服務(wù)。在成本上,也進一步做了優(yōu)化, Serverless 區(qū)別于原來 PaaS 服務(wù)按節(jié)點的計費形式,將依據(jù)寫入量和查詢量收費,真正做到按需收費。在穩(wěn)定性上,采用集群索引后臺統(tǒng)一運維調(diào)優(yōu)的方式,避免因使用不當(dāng)造成的故障,同時也 100% 兼容開源 ES API,100% 兼容 ELK 生態(tài)。
Apache Doris 是 ASF 知名的開源數(shù)倉項目,并以其簡單易用靈活的優(yōu)勢收獲了不少開發(fā)者的青睞。騰訊云 Doris 研發(fā)技術(shù)負責(zé)人、Apache Doris 社區(qū) PMC 李德老師,為大家?guī)砹祟}為《構(gòu)建企業(yè)級實時數(shù)倉:基于 Apache Doris 打造穩(wěn)定可靠的數(shù)據(jù)倉庫 TCHouse-D》的分享。
分享伊始,李德老師先向大家簡要介紹了騰訊云大數(shù)據(jù) TCHouse-D,TCHouse-D是騰訊云基于 Apache Doris 打造的實時數(shù)據(jù)倉庫服務(wù),100% 兼容 Apache Doris,兼容 MySQL 協(xié)議,支持并發(fā)、多維分析、交互式分析、實時數(shù)倉,湖倉聯(lián)邦分析等多種業(yè)務(wù)場景,簡單易用,彈性伸縮,安全可靠,生態(tài)兼容、功能全面。隨即,李德老師分享了他對企業(yè)級實時可更新數(shù)倉的理解:
●實時寫入和增刪改查,數(shù)據(jù)可以實時和批量寫入、增刪改查實時可見,可以對接 Flink、Kafka 等實時系統(tǒng);
●實時同步數(shù)據(jù)變化,支持整庫同步和增量同步,流式寫入背壓自動調(diào)速,表結(jié)構(gòu)變更實時無阻塞自動同步;
●企業(yè)級穩(wěn)定可靠,認證、權(quán)限和審計功能完備,監(jiān)控、告警、巡檢完善,全托管服務(wù),讀寫高可用。
TCHouse-D 正是基于上述標準嚴格設(shè)計的,在保障實時寫入和增刪改查上,借鑒了Google Mesa 的預(yù)聚合模型,存儲引擎通過類似 LSM 的數(shù)據(jù)結(jié)構(gòu)提供快速的數(shù)據(jù)導(dǎo)入支持。在實時同步上,MySQL Binlog 能夠?qū)崟r同步,整庫增量,segment 變更都能實現(xiàn)自動同步,另外有兩階段提交,能夠?qū)崿F(xiàn) Exactly Once 語義。作為云上產(chǎn)品,TCHouse-D 在穩(wěn)定性上的投入毋庸置疑,支持運維和用戶兩級告警體系、定時巡檢、實時寫入背壓自動限流,還有 Tablet 和 Compaction 健康檢查。除此之外,基于角色的權(quán)限體系、白名單、元數(shù)據(jù)雙備份等機制設(shè)計也為服務(wù)的安全可靠保駕護航。
伴隨著大家的期待,李德老師分享了 TCHouse-D 未來的規(guī)劃和展望:冷熱分層、計算節(jié)點、跨集群同步復(fù)制、存算分離等功能正在研發(fā)中,有望在今年 Q4 或明年初與大家見面。
在大數(shù)據(jù)領(lǐng)域,企業(yè)往往關(guān)注數(shù)據(jù)提取和高效挖掘的結(jié)果,但對數(shù)據(jù)從產(chǎn)生、存儲、整合、流轉(zhuǎn)、再產(chǎn)生的閉環(huán)流程的探索卻淺嘗輒止。Apache Software Foundation Member、騰訊云 TVP 郭煒老師進行了《DataOps 探索:Apache 十大 DataOps 頂級項目選型分析》的主題分享。
為了幫助大家更直觀地了解 DataOps,郭老師將其精煉地總結(jié)為:把數(shù)據(jù)存到庫里,構(gòu)建儀表盤,整合到數(shù)據(jù)湖建立數(shù)據(jù)模型,然后做挖掘,最后再到預(yù)測結(jié)果并重新產(chǎn)生新數(shù)據(jù)的這一整個閉環(huán)流程。Gartner 曾經(jīng)在 2019 年把 IT 技術(shù)分為了 IT 工匠、IT 工業(yè)化、IT 數(shù)字化 3 個時代。而郭老師提出,隨著 AI 技術(shù)的突飛猛進和大模型的出現(xiàn),我們正面臨第四個時代 IT 智能化時代,DataOps 也將隨之呈現(xiàn)從 BI 到 AI 的發(fā)展趨勢。隨后,郭老師對Apache SeaTunnel、 Apache Airflow、Apache DolphinScheduler、Apache Nifi 等 ASF 十個比較流行的 DataOps 開源項目進行了詳細的介紹與選型分析,以進一步幫助企業(yè)和開發(fā)者量體裁衣,找到適合項目從而順利打造出公司自己的 DataOps 平臺。
而說到大家都感興趣的大模型與 DataOps 的碰撞以及未來的趨勢,郭老師表示,企業(yè)通過開源大模型重新訓(xùn)練自己的模型是大勢所趨,并用一段《用一杯星巴克的錢,訓(xùn)練自己私有化的 ChatGPT》的案例視頻,生動地展示訓(xùn)練大模型的可行性。而 DataOps 的最終目標就是讓數(shù)據(jù)生成更加快速,大模型和 DataOps 的結(jié)合更是每個公司、每位個體都應(yīng)該大膽去嘗試的事情。
最后,郭老師帶領(lǐng)大家共同展望,Ops 的本質(zhì)是提高人和人的效率,提高業(yè)務(wù)和技術(shù)的效率,提高設(shè)計和研發(fā)的效率,提高不同水平人之間的效率,相信在 DataOps 領(lǐng)域,也將出現(xiàn)“類 ChatGPT”應(yīng)用,讓大家通過自然語言的方式了解數(shù)據(jù)。
當(dāng)下,AIGC 作為大模型一個重要的應(yīng)用場景,受到眾多行業(yè)追捧,有機構(gòu)預(yù)測 AIGC 場景未來會在 5-10 年成為萬億市場。來自騰訊云的智能存儲研發(fā)負責(zé)人 王淼老師也向我們分享了《騰訊云智能存儲在 AIGC 場景的架構(gòu)與落地實踐》,詳細介紹了騰訊云智能儲存的技術(shù)架構(gòu)與主要能力,以及在 AIGC 場景下能夠幫助企業(yè)解決的針對性難題。
王淼老師首先詳細介紹了智能存儲系統(tǒng)在接入層、邏輯處理層、數(shù)據(jù)處理層、存儲層,以及底層基礎(chǔ)服務(wù)的技術(shù)架構(gòu)。隨后王淼老師總結(jié)了 AIGC 場景的核心要素,即內(nèi)容生成、內(nèi)容安全、內(nèi)容智理,圍繞這三個核心要素,結(jié)合 AIGC 場景涉及到的所有流程,從數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、特征工程、模型訓(xùn)練,到推理應(yīng)用,內(nèi)容審核、內(nèi)容智理,騰訊云提供了端到端的智能存儲解決方案。
在騰訊云智能存儲解決方案中,COS 作為數(shù)據(jù)湖的統(tǒng)一存儲底座,在對帶寬訴求強烈的數(shù)據(jù)訓(xùn)練階段,提供了數(shù)據(jù)加速器 GooseFS 和 GooseFSx,通過分布式的換成加速服務(wù),豐富的協(xié)議支持,可以極大地提升數(shù)據(jù)讀寫效率和接入的便利。在內(nèi)容安全上,騰訊云將基于數(shù)據(jù)萬象豐富的內(nèi)容審核能力,結(jié)合 AIGC 的特殊場景,提供了從輸入到輸出,通過定制化模型提供一體化的存儲內(nèi)容安全方案,另外面對版權(quán)保護問題,王淼老師也詳細介紹了數(shù)據(jù)萬象數(shù)字水印功能的技術(shù)原理:通過離散傅里葉變換算法,將圖片、視頻幀進行頻域/時域的轉(zhuǎn)換,在轉(zhuǎn)換過程中嵌入數(shù)字水印信息,以達到隱藏水印,保護數(shù)字產(chǎn)品的版權(quán)的效果。此外,AIGC 的產(chǎn)物,必然有分發(fā)的場景,騰訊云智能存儲還提供了極智壓縮服務(wù),可以在不改變圖片格式的前提下,對 JPG、PNG 圖片提供 50% 以上的體積壓縮,極大程度節(jié)省分發(fā)流量。
最后,王淼老師分享了一個專注文生圖領(lǐng)域的客戶案例,騰訊云智能存儲團隊通過協(xié)助客戶在訓(xùn)練節(jié)點部署 GooseFS,構(gòu)建了 TB/s 的吞吐能力,大幅提升了訓(xùn)練效率,提高了客戶的模型迭代效率。隨著業(yè)務(wù)上線,面對海量請求和 AIGC 產(chǎn)物,客戶通過數(shù)據(jù)萬象的 AIGC 自動審核功能,每日審核文本&圖片數(shù)千萬次,完美解決了內(nèi)容安全問題。在分發(fā)圖片的時候,通過 AVIF 自適應(yīng)、極智壓縮搭配結(jié)合,針對不同平臺智能分發(fā)體積最小的圖片,降低了 50% 的圖片下載帶寬,節(jié)省了運營成本,提高了訪問速度。
在干貨滿滿的大咖分享環(huán)節(jié)結(jié)束之后,接踵而至的是本屆峰會特別策劃的圓桌環(huán)節(jié)。與以往不同的是,本次圓桌討論在明叔的主持下以辯論的形式開展,史凱、高攀、李德、郭煒、王淼五位嘉賓圍繞議題各抒己見,輸出自己的不同觀點與獨到見解,幾乎在每個問題上都出現(xiàn)了正反兩方觀點的碰撞,一時間精彩紛呈,觀眾們大呼過癮的同時也學(xué)習(xí)到了大咖們思辨的精神。
史凱、高攀及王淼三位老師持正方立場,他們均認為AI 會讓未來各行各業(yè)變得更加繁榮,數(shù)據(jù)量更會急劇增加,未來市場對大數(shù)據(jù)的算力、效率等方面都會有更高的要求,這也將進一步推動技術(shù)更新,促進大數(shù)據(jù)往更高的層次發(fā)展。
而李德老師則持相反意見,他在提問“操作系統(tǒng)在 20 年前火還是現(xiàn)在更火”后,表達了自己的觀點,他認為當(dāng) AI 真正迭代到極度成熟時,數(shù)據(jù)庫和大數(shù)據(jù)會藏在應(yīng)用的背后,大家對數(shù)據(jù)庫或大數(shù)據(jù)的需求量可能會降低。郭煒老師也贊成李德老師的觀點,他相信在未來,大數(shù)據(jù)會成為基礎(chǔ)設(shè)施,真正所有的業(yè)務(wù)邏輯將由 AI 大模型來做。
主持人明叔也分享了自己的觀點,在他看來,我們對數(shù)據(jù)的理解和探索還不夠深入,隨著 AI 的發(fā)展,數(shù)據(jù)需求也在發(fā)生變化,在未來很可能會出現(xiàn)新的數(shù)據(jù)類型或者數(shù)據(jù)特征,在那個時候的數(shù)據(jù)工程師可能要解決全新的挑戰(zhàn)。從測試(Test)到大文本(Text),再到圖片(Image),再到視頻(Video)是一個演進,視頻(Video)后邊是什么,想象空間非常大。
王淼老師傾向于小而美,他認為一些垂直場景的公司具備足夠深入的專業(yè)領(lǐng)域知識,在和大數(shù)據(jù)技術(shù)做結(jié)合后,可以快速響應(yīng)一些垂直領(lǐng)域的需求。同時他也建議小而美的公司能夠站在巨人的肩膀上,底層技術(shù)上可以考慮使用開源技術(shù)或云服務(wù),聚焦精力和資源快速把自己的產(chǎn)品推出來。高攀老師則認為該議題屬于分工問題,小而美專注自身領(lǐng)域深入挖掘,做好自身產(chǎn)品,再和大公司合作;大而全的云廠商則應(yīng)做好整合,為客戶提供整套的解決方案。
郭煒、史凱、李德老師認為大而全更好。郭煒老師提出,甲方企業(yè)的需求是多元化的,20% 的企業(yè)選擇用小而美的單一工具自己組裝,而 80% 的公司可能更依賴一站式的解決方案。史凱老師表示,在如今的激烈的市場環(huán)境下,不做大而全的公司可能會面臨生存問題,甲乙方之間對于技術(shù)和業(yè)務(wù)目標的認知存在信息差,作為數(shù)據(jù)庫產(chǎn)品公司,需宣稱自己大而全,強調(diào)自身產(chǎn)品的優(yōu)勢,才能提升行業(yè)認知度。李德老師持相似觀點,在他看來小而美是理想愿景,大而全是現(xiàn)實路徑。如果從商業(yè)成功的角度來看,產(chǎn)品的定位和營銷很重要,很多小而美公司在定位和宣傳上不如大而全的公司可以做到家喻戶曉。
明叔則表示,小而美的公司是創(chuàng)新的根源,他期望看到小而美的公司成功,但大而全的公司在整合資源與成本控制上更有優(yōu)勢,綜合目前的商業(yè)環(huán)境來看,大而全的公司更可能成功。
高攀老師從兵器角度分享了自己的建議,技術(shù)產(chǎn)品雖然紛繁復(fù)雜,但開發(fā)者只要根據(jù)自身場景需要,在每個領(lǐng)域選擇一個備受認可的產(chǎn)品深入研究即可,比如離線場景的 Spark、TP 場景的 MySQL、PG,AP 場景的 ES、Doris 都可以,剩下的產(chǎn)品可以舉一反三。
史凱老師認為越是在技術(shù)滿天飛的時代,越要守住核心能力,因此史老師提出了作為開發(fā)者需要具備的三個重要的能力:學(xué)習(xí)能力、邏輯能力、溝通能力。學(xué)習(xí)能力保障更快成長,邏輯能力幫助更好地解決問題,溝通能力能打造非常好的氛圍、環(huán)境,讓自己走得更遠更穩(wěn)更快。
李德老師也分享了三項能力:一是利用工具的能力,比如通過 ChatGPT、成熟“輪子”等工具或組件完成業(yè)務(wù)需求;二是參與開源,利用開源代碼去學(xué)習(xí)研究可以更快進步;最后是總結(jié)能力,總結(jié)是逼迫自己思考的過程,善于總結(jié)可以提升自己的思考維度。
參與開源也是郭煒老師對開發(fā)者的建議之一,除此之外,郭煒老師提醒開發(fā)者要重視大模型,尤其私有化的模型在輔助編程上的表現(xiàn)會超出預(yù)期。其次,是否深入理解對業(yè)務(wù)流程與需求往往是區(qū)分優(yōu)秀的程序員和一般程序員的標準。4166am金沙進階優(yōu)秀開發(fā)者,一定不能光會寫代碼,而要理解業(yè)務(wù),參與業(yè)務(wù)流程,從而更好地掌控業(yè)務(wù)需求。
王淼老師著重強調(diào)了開發(fā)者需要有經(jīng)營意識,在架構(gòu)設(shè)計、技術(shù)選型的時候,用經(jīng)營的意識去權(quán)衡投入產(chǎn)出比,去決策事情該不該做,該投入多少資源去做,這是開發(fā)者更進一步成為綜合性人才非常需要具備的素質(zhì)。
最后,主持人明叔為參會者們總結(jié)了三個字的建議:異、理、說?!爱悺奔仁遣町惖漠?也是變異的異,在同質(zhì)化嚴重的當(dāng)下,開發(fā)者一定要求異,觀察市場變化,抓住機遇,才能在下一個輪回里搶占先機;“理”是理解力,理解一個系統(tǒng),理解一個業(yè)務(wù)會愈加重要;而“說”代表說服力,真正成功的開發(fā)者最后往往在帶領(lǐng)團隊,在此路徑上說服力必不可少。
觀大咖共話,曉數(shù)字未來,至此,本屆峰會也正式落下帷幕。峰會中 6 位專家就數(shù)據(jù)技術(shù)的最新進展和未來趨勢敞開思想、深入交流,不僅帶來了數(shù)據(jù)技術(shù)的趨勢展望,也分享了可落地的實踐經(jīng)驗。
未來,騰訊云 TVP 將始終與時俱進,秉持“用科技影響世界”的初心,持續(xù)為開發(fā)者打造“最有料、有趣、且有用”的開發(fā)者峰會,讓我們共同期待下一次 Techo TVP 開發(fā)者峰會的到來。