3
發(fā)布日期:2024-08-29 07:07 瀏覽次數(shù):
智東西8月28日消息,AI芯片獨(dú)角獸Cerebras Systems于8月27日宣布推出AI推理服務(wù)Cerebras Inference,號(hào)稱“全球最快”。該服務(wù)已經(jīng)在云端上線。
據(jù)官網(wǎng)介紹,該推理服務(wù)在保證精度的同時(shí),速度比英偉達(dá)的服務(wù)快20倍;其處理器內(nèi)存帶寬是英偉達(dá)的7000倍,而價(jià)格僅為GPU的1/5,性價(jià)比提高了100倍。Cerebras Inference還提供多個(gè)服務(wù)層次,包括免費(fèi)、開發(fā)者和企業(yè)級(jí),滿足從小規(guī)模開發(fā)到大規(guī)模企業(yè)部署的不同需求。
Cerebras Systems成立于2016年,團(tuán)隊(duì)由計(jì)算機(jī)架構(gòu)師、計(jì)算機(jī)科學(xué)家、深度學(xué)習(xí)研究人員和各種工程師組成。該公司以其創(chuàng)新的晶圓級(jí)芯片(Wafer Scale Engine, WSE)而聞名,這些芯片專為AI計(jì)算而設(shè)計(jì),具有巨大的尺寸和性能。
這家芯片獨(dú)角獸曾經(jīng)得到多個(gè)知名投資者的支持,其中包括OpenAI聯(lián)合創(chuàng)始人Sam Altman、AMD前CTO Fred Weber等。截至2021年11月,該公司完成了2.5億美元的F輪融資,估值達(dá)到40億美元。
AI推理指的是在訓(xùn)練好一個(gè)AI模型之后,使用這個(gè)模型對(duì)新的數(shù)據(jù)進(jìn)行預(yù)測(cè)或決策的過(guò)程。AI推理的性能和效率對(duì)于實(shí)時(shí)應(yīng)用至關(guān)重要,例如自動(dòng)駕駛汽車、實(shí)時(shí)翻譯或在線客服聊天機(jī)器人等。Cerebras Inference(以下稱作“Cerebras推理服務(wù)”)便是一個(gè)專注于AI推理的服務(wù),以支持這些對(duì)實(shí)時(shí)性要求極高的應(yīng)用場(chǎng)景。
Cerebras推理服務(wù)由Cerebras CS-3系統(tǒng)及其第三代晶圓級(jí)芯片(WSE-3)提供支持。WSE-3于3月發(fā)布,基于2021年推出的WSE-2芯片進(jìn)行了改進(jìn)。WSE-3內(nèi)存帶寬高達(dá)21PB/s,是英偉達(dá)H100 GPU的7000倍。這種超高的內(nèi)存帶寬可以大幅減少數(shù)據(jù)傳輸時(shí)間,提高模型推理的速度和效率。
此外,Cerebras推理服務(wù)在整個(gè)推理過(guò)程中始終保持在16位精度域內(nèi),確保在提升速度的同時(shí)不會(huì)犧牲模型的精度。大語(yǔ)言模型質(zhì)量評(píng)估公司Artificial Analysis的聯(lián)合創(chuàng)始人兼CEO Micah Hill-Smith談道,他的團(tuán)隊(duì)已經(jīng)驗(yàn)證了Llama 3.1 8B和Llama 3.1 70B模型在Cerebras推理服務(wù)上運(yùn)行的質(zhì)量評(píng)估結(jié)果:與Meta官方版本的原生16位精度一致。
跟據(jù)官網(wǎng),該服務(wù)運(yùn)行Llama3.1的速度比基于英偉達(dá)GPU的解決方案快20倍,而提供服務(wù)的芯片WSE-3價(jià)格僅為GPU的1/5,相當(dāng)于AI推理工作負(fù)載的性價(jià)比提高了100倍。
“在Artificial Analysis的AI推理基準(zhǔn)測(cè)試中,Cerebras推理服務(wù)已經(jīng)領(lǐng)先。Cerebras推理服務(wù)的速度比基于GPU的解決方案快一個(gè)數(shù)量級(jí),打破了測(cè)試的紀(jì)錄?!盡icah Hill-Smith說(shuō),“憑借推動(dòng)超高的性能速度和具有競(jìng)爭(zhēng)力的定價(jià),Cerebras推理服務(wù)對(duì)具有實(shí)時(shí)或高容量需求的AI應(yīng)用開發(fā)者特別具有吸引力?!?/p>
Cerebras推理服務(wù)根據(jù)用戶需求和使用情況,提供了分級(jí)制度,分為三個(gè)層級(jí):
1、免費(fèi)層級(jí):這一層級(jí)為所有登錄用戶提供免費(fèi)的API訪問(wèn)權(quán)限以及相對(duì)寬松的使用限制。用戶可以在這個(gè)層級(jí)中體驗(yàn),無(wú)需支付費(fèi)用。
2、開發(fā)者層級(jí):這一層級(jí)專為靈活的無(wú)服務(wù)器部署設(shè)計(jì),為用戶提供一個(gè)API端點(diǎn)。相比于市場(chǎng)上的大多數(shù)方案,其成本要低得多。對(duì)于Llama 3.1 8B和Llama 3.1 70B模型,每百萬(wàn)tokens的價(jià)格分別是10美分和60美分。未來(lái),Cerebras計(jì)劃持續(xù)推出對(duì)更多模型的支持。
3、企業(yè)層級(jí):這一層級(jí)提供經(jīng)過(guò)微調(diào)的模型、定制的服務(wù)級(jí)別協(xié)議和專門的支持。它適合需要持續(xù)的工作負(fù)載。企業(yè)可以通過(guò)Cerebras管理的私有云或在企業(yè)的本地部署訪問(wèn)Cerebras推理服務(wù)??砂葱枨蠖▋r(jià)。
Cerebras推理服務(wù)的這種分級(jí)制度旨在滿足從小規(guī)模開發(fā)到大規(guī)模企業(yè)部署的不同需求。
在推動(dòng)AI開發(fā)的戰(zhàn)略合作伙伴關(guān)系中,Cerebras Systems正與一系列行業(yè)領(lǐng)導(dǎo)者合作,共同構(gòu)建AI應(yīng)用的未來(lái)生態(tài)。這些公司在各自的領(lǐng)域內(nèi)提供關(guān)鍵技術(shù)和服務(wù),比如,Docker旨在利用容器化技術(shù)使AI應(yīng)用部署更加便捷和一致,LangChain為語(yǔ)言模型應(yīng)用提供快速開發(fā)框架,Weights&Biases打造了供AI開發(fā)者訓(xùn)練和微調(diào)模型的MLOps平臺(tái)……
“LiveKit很高興能與Cerebras合作,幫助開發(fā)者構(gòu)建下一代多模態(tài)AI應(yīng)用。結(jié)合Cerebras的計(jì)算能力和模型以及LiveKit的全球邊緣網(wǎng)絡(luò),所開發(fā)的語(yǔ)音和視頻AI應(yīng)用將實(shí)現(xiàn)超低延遲并更接近人類特征?!盠iveKit公司的CEO兼聯(lián)合創(chuàng)始人Russell D’sa說(shuō)道,該公司專注于構(gòu)建和擴(kuò)展語(yǔ)音和視頻應(yīng)用程序。
AI搜索引擎創(chuàng)企Perplexity的CTO兼聯(lián)合創(chuàng)始人Denis Yarats認(rèn)為,Cerebras推理服務(wù)可以幫助AI搜索引擎在用戶交互方面實(shí)現(xiàn)突破,從而提高用戶參與度。
根據(jù)國(guó)際數(shù)據(jù)公司(IDC)的研究,AI推理芯片在2020年已經(jīng)占據(jù)了中國(guó)數(shù)據(jù)中心市場(chǎng)的50%以上份額,并預(yù)計(jì)到2025年,這一比例將增長(zhǎng)至60.8%。據(jù)英偉達(dá)2024財(cái)年數(shù)據(jù)中心的業(yè)績(jī)會(huì)紀(jì)要,其公司該年度有超過(guò)40%的收入來(lái)自AI推理業(yè)務(wù)??梢?,AI推理不僅在當(dāng)前市場(chǎng)中占有相當(dāng)比例,而且預(yù)計(jì)在未來(lái)幾年將繼續(xù)保持增長(zhǎng)勢(shì)頭。
Cerebras憑借其超快的推理速度、優(yōu)異的性價(jià)比和獨(dú)特的硬件設(shè)計(jì),將賦予開發(fā)者構(gòu)建下一代AI應(yīng)用的能力,這些應(yīng)用將涉及復(fù)雜、多步驟的實(shí)時(shí)處理任務(wù)。
然而,在生態(tài)系統(tǒng)的成熟度、模型支持的廣泛性以及市場(chǎng)認(rèn)知度方面,英偉達(dá)仍然占據(jù)優(yōu)勢(shì)。相比于Cerebra,英偉達(dá)擁有更大的用戶群體和更豐富的開發(fā)者工具和支持。此外,雖然Cerebras支持主流模型(如Llama 3.1),但英偉達(dá)的GPU支持的深度學(xué)習(xí)框架和模型范圍更廣。對(duì)于已經(jīng)深度集成在英偉達(dá)生態(tài)系統(tǒng)中的用戶,Cerebras可能在模型支持的廣度和靈活性方面略顯不足。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
加拿大發(fā)生一起兒童綁架案,民眾第一時(shí)間收到手機(jī)警報(bào),嫌疑人疑是中國(guó)退休高官
2萬(wàn)元全款買房的“新鶴崗”遼寧阜新:礦產(chǎn)枯竭之后,二十年人口流失24萬(wàn)
不想寫題不想寫題啊啊啊啊我要我的靈韻我的自由我的快樂(lè)啊啊啊啊啊啊!!!!
消息稱華為 FreeBuds Pro 3 升級(jí)鴻蒙 NEXT 短期不支持部分功能
采用 M4 Pro 和 M4 Max 芯片的 MacBook Pro 將于本月量產(chǎn)
與中堅(jiān)力量共成長(zhǎng),2024建信信托藝術(shù)大獎(jiǎng)評(píng)委會(huì)特別獎(jiǎng)獲獎(jiǎng)藝術(shù)家凌海鵬
vivo X100 Ultra 影像的力量:夢(mèng)回古蜀 鏡頭下的成都時(shí)光之旅4166am金沙