3
發(fā)布日期:2024-09-10 08:11 瀏覽次數(shù):
4166am金沙隨著大模型成為熱詞,大模型研發(fā)的過程也為更多人所知曉。一個重要的生產(chǎn)要素貫穿在大模型的素材采集與清洗、模型訓練、推理等重要環(huán)節(jié)中,這個要素便是數(shù)據(jù)。 國內云廠商正為大模型的加速落地提供便利。4月8日,騰訊云宣布云存儲解決方案面向AIGC場景全面升級,升級后能夠針對AI大模型數(shù)據(jù)采集清洗、訓練、推理、數(shù)據(jù)治理全流程提供全面、高效的云存儲支持。南都記者了解獲悉,采用騰訊云AIGC云存儲解決方案,可將大模型的數(shù)據(jù)清洗和訓練效率均提升一倍,需要的時間縮短一半。值得關注的是,騰訊云存儲總經(jīng)理馬文霜還在接受媒體群訪時強調,云存儲解決方案升級后價格不變。不過在騰訊云宣布升級解決方案的當天,“騰訊云崩了”也登上了熱搜,隨后騰訊云方面在官微表示“已整體恢復”。 同天,阿里云也宣布海外市場全線降價。南都記者獲悉,繼一個月前中國區(qū)全線降價后,阿里云此次降價幅度覆蓋全球13個地域節(jié)點部署的核心云產(chǎn)品、500多個產(chǎn)品規(guī)格,平均降幅23%,最高降幅59%。據(jù)悉,降價后阿里云海外市場云產(chǎn)品價格全面低于其他國際主流云廠商。
據(jù)介紹,此次騰訊云升級的AIGC云存儲解決方案,主要由對象存儲COS、高性能并行文件存儲CFS Turbo、數(shù)據(jù)加速器GooseFS和數(shù)據(jù)萬象CI等產(chǎn)品組成,是國內首個實現(xiàn)存儲引擎全面自研的云存儲解決方案。此前,騰訊云已經(jīng)面向AIGC場景推出了基于星脈網(wǎng)絡的大模型訓練集群HCC、向量數(shù)據(jù)庫、以及行業(yè)大模型服務MaaS等大模型全鏈路云服務。
另一邊,阿里云在針對涉及計算、存儲、網(wǎng)絡、數(shù)據(jù)庫、大數(shù)據(jù)功效的五大類主營產(chǎn)品進行降價的同時,也于4月8日面向海外推出PAI靈駿智算服務、大模型托管服務和可持續(xù)發(fā)展解決方案能耗寶OpenAPI,據(jù)悉,這些主要集中在AI領域的產(chǎn)品此前已在國內推出,此次是首次向海外推出。
值得一提的是,南都記者對比發(fā)現(xiàn),騰訊與阿里云同天推出的方案或活動,都旨在為AI企業(yè)和開發(fā)者們“降本增效”。
用阿里云智能國際事業(yè)部總裁袁千的話來說,全球正處于由傳統(tǒng)計算向AI計算轉型的關鍵時刻,絕大多數(shù)AI計算將在公共云平臺上進行,而阿里云則通過釋放規(guī)模和技術紅利,持續(xù)降低云計算成本,并積極推進從底層算力到AI平臺再到模型服務的全棧技術創(chuàng)新,加大本地化服務和生態(tài)建設投入,支撐全球開發(fā)者和企業(yè)抓住AIGC帶來的增長機遇。
騰訊集團副總裁、騰訊云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬則曾表示,大模型將開創(chuàng)下一代云服務,騰訊云致力于打造“最適合大模型的云”。
隨著AI大模型成為了去年和今年的熱詞,AI大模型的研發(fā)生產(chǎn)流程也逐漸走入人們的視線。一般而言,在研發(fā)、生產(chǎn)一個AI大模型前,會經(jīng)過數(shù)據(jù)采集與清洗、模型訓練、推理三大環(huán)節(jié),而每個環(huán)節(jié)都涉及海量的數(shù)據(jù)處理。
在接受媒體群訪時,負責騰訊云對象存儲、數(shù)據(jù)萬象產(chǎn)品團隊的騰訊云存儲總經(jīng)理陳崢提到,他親自目睹了整個大模型多模態(tài)的進化?!白铋_始是文生文這種比較簡單的模型,你給模型提問,模型給你一個回答;到了文生圖階段,人在對話的同時可能你想要一些視覺上、效果上的變化,游戲行業(yè)里比較多的模型是美工、美化這種,騰訊游戲團隊每個人都會基于自己的數(shù)據(jù)去訓練一個自己的小模型,基于這個模型它會喂一些數(shù)據(jù)產(chǎn)生出來它想要的圖片,再做一些美化和美工。這時效率提升蠻快的,本來一周的工作一天就可以完成?!?/p>
多模態(tài)的進化,同時也帶來了訓練數(shù)據(jù)量的變化。在陳崢看來,在模型的文生文與文生圖時代,需要投入訓練的數(shù)據(jù)量并不多。但今年,當文生視頻模型出來后,數(shù)據(jù)的需求量級直接上了一個臺階,也導致訓練出來的模型參數(shù)包括Checkpoint(檢查點)都有了倍數(shù)的增長關系。面對多種模態(tài)的演進,騰訊云的產(chǎn)品怎樣去做提前的布局和規(guī)劃、怎樣面對海量數(shù)據(jù)的增長,則成了騰訊云必須面對的挑戰(zhàn)。
南都記者獲悉,騰訊云云存儲解決方案面向AIGC場景全面升級后,能針對AI大模型數(shù)據(jù)采集清洗、訓練、推理、數(shù)據(jù)治理全流程提供全面、高效的云存儲支持。數(shù)據(jù)顯示,采用騰訊云AIGC云存儲解決方案,可將大模型的數(shù)據(jù)清洗和訓練效率均提升一倍,需要的時間縮短一半。
具體來看,在數(shù)據(jù)清洗環(huán)節(jié),大數(shù)據(jù)引擎需要快速地讀取并過濾出有效數(shù)據(jù),COS可實現(xiàn)高達數(shù)TBps的讀取帶寬,支撐計算高速運行,大大提升數(shù)據(jù)清洗效率;在模型訓練環(huán)節(jié),通常需要每2-4小時保存一次訓練成果,快速地讀寫checkpoint(檢查點)文件也成了能否高效利用算力資源、提高訓練效率的關鍵。而騰訊云CFS Turbo將3TB checkpoint 寫入時間從10分鐘,縮短至10秒內,使大模型訓練效率大幅提升;此外,大模型推理場景對數(shù)據(jù)安全與可追溯性提出更高要求。騰訊云數(shù)據(jù)萬象CI為此提供圖片隱式水印、AIGC內容審核、智能數(shù)據(jù)檢索MetaInsight等能力。
在客戶方面,據(jù)介紹,目前,國內已有80%的頭部大模型企業(yè)選擇了騰訊云AIGC云存儲解決方案,包括百川智能、智譜、元象等明星大模型企業(yè)。此外騰訊的解決方案也被廣泛應用于自動駕駛與工業(yè)仿真場景,包括博世汽車、蔚來等自動駕駛廠商,上海電氣、深勢等仿真場景,墨鏡天合、追光等影視特效場景。
騰訊云存儲總經(jīng)理馬文霜還提到,他觀察到今年Q1大模型企業(yè)在云存儲的消耗同比增加了,這可能是因為大模型企業(yè)拿到的投資更多了。此外,在他看來,目前AIGC應用雖然在爆發(fā)式地增長,但遠沒有到繁榮的階段。在目前的階段,云存儲首要解決的問題主要還是聚焦在大模型訓練中,圍繞算力與網(wǎng)絡,讓訓練可以更高效,因此當下主要針對性能高、性價比高等方面做升級。
不過,馬文霜還提到,雖然目前工信部認證的大模型已經(jīng)達到了180多個,但未來或許“每個人都有一個大模型”。到那時候,云存儲要解決的問題或許會轉向數(shù)據(jù)治理、審核和應用方面?!暗鹊轿磥碛羞@么多的大模型出來以后,后續(xù)應用也會逐步更繁榮,應用繁榮了以后AI生成的內容會更加指數(shù)式爆發(fā)增長。那時候我認為我們會在數(shù)據(jù)審核、數(shù)據(jù)治理、數(shù)據(jù)應用這個場景幫助更多我們的開發(fā)者、創(chuàng)業(yè)者、創(chuàng)業(yè)團隊去做它的數(shù)據(jù)應用?!?/p>
陳崢接著還補充表示,目前騰訊云云存儲團隊已經(jīng)提前做了布局?!安还苁俏覀兊膶ο蟠鎯σ埠?、文件存儲也好還是塊存儲也好,不管是不同場景選定的AIGC還是自動駕駛這個場景,我們其實都在技術指標、產(chǎn)品形態(tài)與能力、規(guī)模指標等方面做預先布局,來滿足未來2-3年或者3-5年業(yè)務的發(fā)展?!?/p>