3
發(fā)布日期:2024-09-11 04:55 瀏覽次數(shù):
隨著大模型成為熱詞,大模型研發(fā)的過程也為更多人所知曉。一個(gè)重要的生產(chǎn)要素貫穿在大模型的素材采集與清洗、模型訓(xùn)練、推理等重要環(huán)節(jié)中,這個(gè)要素便是數(shù)據(jù)。
國(guó)內(nèi)云廠商正為大模型的加速落地提供便利。4月8日,騰訊云宣布云存儲(chǔ)解決方案面向AIGC場(chǎng)景全面升級(jí),升級(jí)后能夠針對(duì)AI大模型數(shù)據(jù)采集清洗、訓(xùn)練、推理、數(shù)據(jù)治理全流程提供全面、高效的云存儲(chǔ)支持。南都記者了解獲悉,采用騰訊云AIGC云存儲(chǔ)解決方案,可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率均提升一倍,需要的時(shí)間縮短一半。值得關(guān)注的是,騰訊云存儲(chǔ)總經(jīng)理馬文霜還在接受媒體群訪時(shí)強(qiáng)調(diào),云存儲(chǔ)解決方案升級(jí)后價(jià)格不變。不過在騰4166am金沙訊云宣布升級(jí)解決方案的當(dāng)天,“騰訊云崩了”也登上了熱搜,隨后騰訊云方面在官微表示“已整體恢復(fù)”。
同天,阿里云也宣布海外市場(chǎng)全線降價(jià)。南都記者獲悉,繼一個(gè)月前中國(guó)區(qū)全線降價(jià)后,阿里云此次降價(jià)幅度覆蓋全球13個(gè)地域節(jié)點(diǎn)部署的核心云產(chǎn)品、500多個(gè)產(chǎn)品規(guī)格,平均降幅23%,最高降幅59%。據(jù)悉,降價(jià)后阿里云海外市場(chǎng)云產(chǎn)品價(jià)格全面低于其他國(guó)際主流云廠商。
據(jù)介紹,此次騰訊云升級(jí)的AIGC云存儲(chǔ)解決方案,主要由對(duì)象存儲(chǔ)COS、高性能并行文件存儲(chǔ)CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬(wàn)象CI等產(chǎn)品組成,是國(guó)內(nèi)首個(gè)實(shí)現(xiàn)存儲(chǔ)引擎全面自研的云存儲(chǔ)解決方案。此前,騰訊云已經(jīng)面向AIGC場(chǎng)景推出了基于星脈網(wǎng)絡(luò)的大模型訓(xùn)練集群HCC、向量數(shù)據(jù)庫(kù)、以及行業(yè)大模型服務(wù)MaaS等大模型全鏈路云服務(wù)。
另一邊,阿里云在針對(duì)涉及計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、大數(shù)據(jù)功效的五大類主營(yíng)產(chǎn)品進(jìn)行降價(jià)的同時(shí),也于4月8日面向海外推出PAI靈駿智算服務(wù)、大模型托管服務(wù)和可持續(xù)發(fā)展解決方案能耗寶OpenAPI,據(jù)悉,這些主要集中在AI領(lǐng)域的產(chǎn)品此前已在國(guó)內(nèi)推出,此次是首次向海外推出。
值得一提的是,南都記者對(duì)比發(fā)現(xiàn),騰訊與阿里云同天推出的方案或活動(dòng),都旨在為AI企業(yè)和開發(fā)者們“降本增效”。
用阿里云智能國(guó)際事業(yè)部總裁袁千的話來說,全球正處于由傳統(tǒng)計(jì)算向AI計(jì)算轉(zhuǎn)型的關(guān)鍵時(shí)刻,絕大多數(shù)AI計(jì)算將在公共云平臺(tái)上進(jìn)行,而阿里云則通過釋放規(guī)模和技術(shù)紅利,持續(xù)降低云計(jì)算成本,并積極推進(jìn)從底層算力到AI平臺(tái)再到模型服務(wù)的全棧技術(shù)創(chuàng)新,加大本地化服務(wù)和生態(tài)建設(shè)投入,支撐全球開發(fā)者和企業(yè)抓住AIGC帶來的增長(zhǎng)機(jī)遇。
騰訊集團(tuán)副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬則曾表示,大模型將開創(chuàng)下一代云服務(wù),騰訊云致力于打造“最適合大模型的云”。
隨著AI大模型成為了去年和今年的熱詞,AI大模型的研發(fā)生產(chǎn)流程也逐漸走入人們的視線。一般而言,在研發(fā)、生產(chǎn)一個(gè)AI大模型前,會(huì)經(jīng)過數(shù)據(jù)采集與清洗、模型訓(xùn)練、推理三大環(huán)節(jié),而每個(gè)環(huán)節(jié)都涉及海量的數(shù)據(jù)處理。
在接受媒體群訪時(shí),負(fù)責(zé)騰訊云對(duì)象存儲(chǔ)、數(shù)據(jù)萬(wàn)象產(chǎn)品團(tuán)隊(duì)的騰訊云存儲(chǔ)總經(jīng)理陳崢提到,他親自目睹了整個(gè)大模型多模態(tài)的進(jìn)化。“最開始是文生文這種比較簡(jiǎn)單的模型,你給模4166am金沙信心之選型提問,模型給你一個(gè)回答;到了文生圖階段,人在對(duì)話的同時(shí)可能你想要一些視覺上、效果上的變化,游戲行業(yè)里比較多的模型是美工、美化這種,騰訊團(tuán)隊(duì)每個(gè)人都會(huì)基于自己的數(shù)據(jù)去訓(xùn)練一個(gè)自己的小模型,基于這個(gè)模型它會(huì)喂一些數(shù)據(jù)產(chǎn)生出來它想要的圖片,再做一些美化和美工。這時(shí)效率提升蠻快的,本來一周的工作一天就可以完成?!?/p>
多模態(tài)的進(jìn)化,同時(shí)也帶來了訓(xùn)練數(shù)據(jù)量的變化。在陳崢看來,在模型的文生文與文生圖時(shí)代,需要投入訓(xùn)練的數(shù)據(jù)量并不多。但今年,當(dāng)文生視頻模型出來后,數(shù)據(jù)的需求量級(jí)直接上了一個(gè)臺(tái)階,也導(dǎo)致訓(xùn)練出來的模型參數(shù)包括Checkpoint(檢查點(diǎn))都有了倍數(shù)的增長(zhǎng)關(guān)系。面對(duì)多種模態(tài)的演進(jìn),騰訊云的產(chǎn)品怎樣去做提前的布局和規(guī)劃、怎樣面對(duì)海量數(shù)據(jù)的增長(zhǎng),則成了騰訊云必須面對(duì)的挑戰(zhàn)。
南都記者獲悉,騰訊云云存儲(chǔ)解決方案面向AIGC場(chǎng)景全面升級(jí)后,能針對(duì)AI大模型數(shù)據(jù)采集清洗、訓(xùn)練、推理、數(shù)據(jù)治理全流程提供全面、高效的云存儲(chǔ)支持。數(shù)據(jù)顯示,采用騰訊云AIGC云存儲(chǔ)解決方案,可將大模型的數(shù)據(jù)清洗和訓(xùn)練效率均提升一倍,需要的時(shí)間縮短一半。
具體來看,在數(shù)據(jù)清洗環(huán)節(jié),引擎需要快速地讀取并過濾出有效數(shù)據(jù),COS可實(shí)現(xiàn)高達(dá)數(shù)TBps的讀取帶寬,支撐計(jì)算高速運(yùn)行,大大提升數(shù)據(jù)清洗效率;在模型訓(xùn)練環(huán)節(jié),通常需要每2-4小時(shí)保存一次訓(xùn)練成果,快速地讀寫checkpoint(檢查點(diǎn))文件也成了能否高效利用算力資源、提高訓(xùn)練效率的關(guān)鍵。而騰訊云CFS Turbo將3TB checkpoint 寫入時(shí)間從10分鐘,縮短至10秒內(nèi),使大模型訓(xùn)練效率大幅提升;此外,大模型推理場(chǎng)景對(duì)數(shù)據(jù)安全與可追溯性提出更高要求。騰訊云數(shù)據(jù)萬(wàn)象CI為此提供圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力。
在客戶方面,據(jù)介紹,目前,國(guó)內(nèi)已有80%的頭部大模型企業(yè)選擇了騰訊云AIGC云存儲(chǔ)解決方案,包括百川智能、智譜、元象等明星大模型企業(yè)。此外騰訊的解決方案也被廣泛應(yīng)用于自動(dòng)駕駛與工業(yè)仿真場(chǎng)景,包括博世汽車、蔚來等自動(dòng)駕駛廠商,上海電氣、深勢(shì)等仿真場(chǎng)景,墨鏡天合、追光等影視特效場(chǎng)景。
騰訊云存儲(chǔ)總經(jīng)理馬文霜還提到,他觀察到今年Q1大模型企業(yè)在云存儲(chǔ)的消耗同比增加了,這可能是因?yàn)榇竽P推髽I(yè)拿到的投資更多了。此外,在他看來,目前AIGC應(yīng)用雖然在爆發(fā)式地增長(zhǎng),但遠(yuǎn)沒有到繁榮的階段。在目前的階段,云存儲(chǔ)首要解決的問題主要還是聚焦在大模型訓(xùn)練中,圍繞算力與網(wǎng)絡(luò),讓訓(xùn)練可以更高效,因此當(dāng)下主要針對(duì)性能高、性價(jià)比高等方面做升級(jí)。
不過,馬文霜還提到,雖然目前工信部認(rèn)證的大模型已經(jīng)達(dá)到了180多個(gè),但未來或許“每個(gè)人都有一個(gè)大模型”。到那時(shí)候,云存儲(chǔ)要解決的問題或許會(huì)轉(zhuǎn)向數(shù)據(jù)治理、審核和應(yīng)用方面?!暗鹊轿磥碛羞@么多的大模型出來以后,后續(xù)應(yīng)用也會(huì)逐步更繁榮,應(yīng)用繁榮了以后AI生成的內(nèi)容會(huì)更加指數(shù)式爆發(fā)增長(zhǎng)。那時(shí)候我認(rèn)為我們會(huì)在數(shù)據(jù)審核、數(shù)據(jù)治理、數(shù)據(jù)應(yīng)用這個(gè)場(chǎng)景幫助更多我們的開發(fā)者、創(chuàng)業(yè)者、創(chuàng)業(yè)團(tuán)隊(duì)去做它的數(shù)據(jù)應(yīng)用?!?/p>
陳崢接著還補(bǔ)充表示,目前騰訊云云存儲(chǔ)團(tuán)隊(duì)已經(jīng)提前做了布局?!安还苁俏覀兊膶?duì)象存儲(chǔ)也好、文件存儲(chǔ)也好還是塊存儲(chǔ)也好,不管是不同場(chǎng)景選定的AIGC還是自動(dòng)駕駛這個(gè)場(chǎng)景,我們其實(shí)都在技術(shù)指標(biāo)、產(chǎn)品形態(tài)與能力、規(guī)模指標(biāo)等方面做預(yù)先布局,來滿足未來2-3年或者3-5年業(yè)務(wù)的發(fā)展。”