3
發(fā)布日期:2024-09-14 15:27 瀏覽次數(shù):
2024年8月,AI 領(lǐng)域機(jī)器人發(fā)展迅猛。前有華為天才少年 “稚暉君” 的智元機(jī)器人一口氣發(fā)布五款商用人形機(jī)器人,后有世界機(jī)器人大會(huì)27款人形機(jī)器人亮相。蘋果也宣布將進(jìn)軍機(jī)器人行業(yè),推出一款代號(hào)為J959的帶有機(jī)械臂的桌面機(jī)器人,這一舉措被認(rèn)為是蘋果進(jìn)軍智能家居市場(chǎng)的重要一步。同時(shí),國(guó)內(nèi)具身智能熱也從產(chǎn)業(yè)端蔓延至投融資領(lǐng)域,熱錢瘋狂涌入。根據(jù)來覓PEVC的數(shù)據(jù)顯示,2024年一季度機(jī)器人領(lǐng)域合計(jì)發(fā)生融資案例59起,涉及融資金額45.22億元。其中,最為瘋狂的是,智元機(jī)器人成立17個(gè)月就完成了7輪融資,投前估值已達(dá)70億元。
具身智能最大的特點(diǎn)是自主學(xué)習(xí)和適應(yīng)性。具身智能系統(tǒng)可以通過在實(shí)際環(huán)境中的不斷嘗試和實(shí)踐,自主地學(xué)習(xí)和積累經(jīng)驗(yàn),從而提高自身的性能和適應(yīng)性。這種自主學(xué)習(xí)能力使得具身智能能夠不斷適應(yīng)新的任務(wù)和環(huán)境,而無(wú)需人工進(jìn)行大量的重新編程和訓(xùn)練。目前,具身智能已經(jīng)在眾多領(lǐng)域展現(xiàn)巨大的應(yīng)用潛力。在制造業(yè)中,可用于自動(dòng)化生產(chǎn)、質(zhì)量檢測(cè)等任務(wù),提高生產(chǎn)效率和質(zhì)量;在醫(yī)療領(lǐng)域,能夠輔助手術(shù)、康復(fù)治療等,為患者提供更好的醫(yī)療服務(wù);在家庭服務(wù)中,可以承擔(dān)家務(wù)勞動(dòng)、照顧老人和孩子等工作;在教育領(lǐng)域,可以作為智能教學(xué)助手,為學(xué)生提供個(gè)性化的學(xué)習(xí)支持等。
盡管未來市場(chǎng)前景廣闊,但產(chǎn)業(yè)仍處于早期階段,距離規(guī)?;虡I(yè)化應(yīng)用還有很長(zhǎng)的路要走,其發(fā)展面臨諸多挑戰(zhàn)。
對(duì)于具身智能本身訓(xùn)練來說,雖然有豐富的數(shù)據(jù)資源,但獲取高質(zhì)量的、與實(shí)際環(huán)境緊密相關(guān)的數(shù)據(jù)并不容易。特別是對(duì)于一些復(fù)雜的場(chǎng)景和任務(wù),需要專門的設(shè)備和手段來采集數(shù)據(jù)。同時(shí),對(duì)這些數(shù)據(jù)進(jìn)行準(zhǔn)確的標(biāo)注也是一項(xiàng)艱巨的任務(wù),需要耗費(fèi)大量的人力和時(shí)間。
對(duì)于具身智能發(fā)展產(chǎn)業(yè)來說,商業(yè)化前景不明朗,盈利艱難是顯著困難之一。以號(hào)稱“人形機(jī)器人第一股” 的優(yōu)必選為例,已連續(xù)四年虧損,累計(jì)虧損超38億元,且毛利率不斷下滑;其次是落地難,當(dāng)前人形機(jī)器人主要應(yīng)用于工業(yè)、交互服務(wù)、營(yíng)銷及商業(yè)3C等場(chǎng)景,家庭服務(wù)領(lǐng)域的全面普及還需較長(zhǎng)時(shí)間,更多應(yīng)用場(chǎng)景仍在探索試驗(yàn)階段,部分企業(yè)雖已小規(guī)模量產(chǎn),但遠(yuǎn)未達(dá)到市場(chǎng)需求。
近半年來,一些 AI 創(chuàng)業(yè)公司和行業(yè)巨頭為我們揭開了人機(jī)沉浸式交互的新形態(tài)。今年5月中旬,OpenAI推出GPT-4o,憑借突破性的智能交互能力,顛覆了人們對(duì)人機(jī)交互的認(rèn)知,掀起多模態(tài)大模型的新浪潮。
三個(gè)月后,科大訊飛正式推出星火極速超擬人交互,并將其能力落地在訊飛星火APP“小星暢聊”功能中。星火極速超擬人交互在響應(yīng)和打斷速度、情緒感知情感共鳴、語(yǔ)音可控表達(dá)、人設(shè)扮演四個(gè)方面實(shí)現(xiàn)突破。
緊接著,智譜宣布清言app迎來“視頻通話”功能,這也是國(guó)內(nèi)首個(gè)面向C端開放的視頻通話功能。清言視頻通話跨越了文本模態(tài)、音頻模態(tài)和視頻模態(tài),并具備實(shí)時(shí)推理的能力。
用戶撥打清言的視頻通話窗口,即可與它進(jìn)行流暢通話,即便頻繁打斷它也能迅速反應(yīng)。只要打開攝像頭,用戶看到的畫面,清言也可以看到,同時(shí)可以聽懂指令并準(zhǔn)確執(zhí)行。
除此之外,SAC成員企業(yè)云知聲在8月23日推出山海多模態(tài)大模型。通過整合跨模態(tài)信息,山海多模態(tài)大模型能夠接收文本、音頻、圖像等多種形式作為輸入,并實(shí)時(shí)生成文本、音頻和圖像的任意組合輸出,帶來實(shí)時(shí)多模態(tài)擬人交互體驗(yàn)。
國(guó)產(chǎn)大模型廠商爭(zhēng)先入局多模態(tài)擬人交互,一部分原因是市場(chǎng)對(duì)AI提供情緒價(jià)值、情感體驗(yàn)的空前需求。社會(huì)壓力與日俱增,現(xiàn)實(shí)社交“太麻煩”,許多年輕人轉(zhuǎn)向其它的情感慰藉獲取途徑,包括養(yǎng)寵物、網(wǎng)絡(luò)交友、追星,甚至是與AI應(yīng)用對(duì)話這樣的“賽博社交”等。
當(dāng)用戶要求AI不僅要遵循指令完成任務(wù),還要它們能提供足夠的情緒價(jià)值,滿足情感需求時(shí),從功能「基操」到情感「進(jìn)階」,AI要掌握的技能就要升級(jí)了。因此,多模態(tài)情感識(shí)別成為AI領(lǐng)域的活躍研究課題。能讀懂情緒并傳達(dá)情感的 AI成為業(yè)界追逐的新熱點(diǎn),也被認(rèn)為是AI領(lǐng)域下一個(gè)重大突破。
不過要想在擬人化情感識(shí)別領(lǐng)域更進(jìn)一步,仍需解決有標(biāo)簽數(shù)據(jù)稀缺、主觀情緒識(shí)別不穩(wěn)定和不準(zhǔn)確等問題。高質(zhì)量、多樣化的情感標(biāo)注數(shù)據(jù)仍然稀缺,這對(duì)于訓(xùn)練準(zhǔn)確的情感識(shí)別模型是一個(gè)挑戰(zhàn)。同時(shí),情感識(shí)別是一個(gè)復(fù)雜的過程,不僅因?yàn)槿祟惽楦械亩鄻有院蛷?fù)雜性,還由于文化背景的不同可能導(dǎo)致同樣的表情或語(yǔ)氣背后蘊(yùn)含著不同的情感。因此,提高情感識(shí)別的準(zhǔn)確性也是關(guān)鍵挑戰(zhàn)之一。
2024年8月,AI領(lǐng)域迎來了輕量級(jí)端側(cè)模型的密集發(fā)布浪潮,這股浪潮為AI技術(shù)的加速落地注入了強(qiáng)大的動(dòng)力,其中面壁智能、微軟、商湯等公司的表現(xiàn)尤為突出。
面壁智能在8月的表現(xiàn)令人矚目。8月7日,面壁智能宣布正式開源其最新的端側(cè)AI多模態(tài)模型——MiniCPM-V 2.6。該模型以其僅8b的參數(shù),實(shí)現(xiàn)了單圖、多圖、視頻理解的全面性能提升,甚至超越了GPT-4V。9月5日,面壁智能發(fā)布了新一代基座模型面壁小鋼炮MiniCPM 3.0 ,再次以小博大,以4B參數(shù),帶來超越GPT-3.5的性能,被稱為“瑞士軍刀般全面開掛的基座模型”。
8月21日,微軟推出了phi-3.5系列輕量級(jí)模型。這三款新Phi-3.5模型包括參數(shù)為38.2億的Phi-3.5-mini-instruct、參數(shù)為419億的Phi-3.5-MoE-instruct以及參數(shù)為41.5億的Phi-3.5-vision-instruct,分別設(shè)計(jì)用于基本/快速推理、更強(qiáng)大的推理和視覺(圖像與視頻分析)務(wù)。其開源的舉措更是推動(dòng)了整個(gè) AI 社區(qū)的發(fā)展,讓更多的開發(fā)者能夠參與到模型的改進(jìn)和創(chuàng)新中來。
商湯在8月的發(fā)展重點(diǎn)聚焦于端側(cè)模型的應(yīng)用和推廣。近日,商湯交出了一份亮眼的半年報(bào)。財(cái)報(bào)披露,商湯的日日新大模型客戶從互聯(lián)網(wǎng)行業(yè)擴(kuò)展至智能硬件、電動(dòng)汽車、機(jī)器人、醫(yī)療、金融等行業(yè),整體調(diào)用量實(shí)現(xiàn)了400%的增長(zhǎng)。這也充分證明了端側(cè)模型在各行業(yè)中的廣泛應(yīng)用前景。
端側(cè)大模型,是運(yùn)行在設(shè)備端的大模型,通常比我們熟悉的GPT等大模型參數(shù)量更小,因此可以使用端側(cè)算力直接運(yùn)行。端側(cè)AI有著在任何網(wǎng)絡(luò)條件下都可以生成回答、隱私不必離開設(shè)備、且無(wú)需云端算力因此成本更低等種種優(yōu)勢(shì)。
隨著大模型的參數(shù)規(guī)模不斷增長(zhǎng),帶來了巨大的計(jì)算和推理壓力。因此,將一些處理從云端轉(zhuǎn)移到邊緣終端,可以減輕云基礎(chǔ)設(shè)施的壓力并減少推理服務(wù)成本。同時(shí),隨著大模型技術(shù)的不斷成熟,模型的輕量化和小型化也成為了發(fā)展趨勢(shì),為端側(cè)模型的應(yīng)用提供了技術(shù)支持。
對(duì)于企業(yè)來說,端側(cè)模型可以降低對(duì)云端計(jì)算資源的依賴,減少云計(jì)算成本,同時(shí)也可以提高數(shù)據(jù)的安全性和隱私保護(hù),具有較高的商業(yè)價(jià)值。此外,端側(cè)模型的應(yīng)用可以為企業(yè)帶來新的業(yè)務(wù)模式和增長(zhǎng)點(diǎn),如智能硬件、智能家居等領(lǐng)域的發(fā)展。
八月份,騰訊AI原生應(yīng)用“騰訊元寶”主要上線了兩款新功能,分別是月初上線日上線的AI相冊(cè)功能。
長(zhǎng)文精讀能力是繼多文件、超長(zhǎng)文泛讀總結(jié)后,騰訊元寶在AI輔助提效方面的又一新進(jìn)展。在最新版本的騰訊元寶中,當(dāng)用戶上傳論文、財(cái)報(bào)、研報(bào)等專業(yè)內(nèi)容的URL鏈接或文件,除獲得文字概括總結(jié)外,還可進(jìn)入深度閱讀模式,對(duì)長(zhǎng)文進(jìn)行精讀。
8月20日騰訊元寶APP上線的AI相冊(cè)功能,則允許用戶通過上傳1-6張照片創(chuàng)建個(gè)人數(shù)字分身,并利用海量模板一鍵生成免費(fèi)寫真。
除此之外,八月騰訊發(fā)布了2024年Q2財(cái)報(bào),當(dāng)季總營(yíng)收1611億元,同比增長(zhǎng)8%。其中,企業(yè)服務(wù)業(yè)務(wù)收入實(shí)現(xiàn)雙位數(shù)增長(zhǎng)率,受益于云服務(wù)業(yè)務(wù)收入增長(zhǎng)(包括企業(yè)微信商業(yè)化的提升),以及視頻號(hào)商家技術(shù)服務(wù)費(fèi)的增長(zhǎng)。
財(cái)報(bào)顯示,騰訊Q2研發(fā)開支達(dá)172.77億元,自2018年至今六年研發(fā)投入超過3026.09億元,持續(xù)發(fā)力核心技術(shù)自研、提升產(chǎn)品競(jìng)爭(zhēng)力。
在大模型方面,9月5日在騰訊全球數(shù)字生態(tài)大會(huì)上,騰訊宣布推出新一代大模型“混元Turbo”,相比前代模型訓(xùn)練效率提升108%,推理效率提升100%,推理成本降低 50%,解碼速度提升20%,效果在多個(gè)基準(zhǔn)測(cè)試上對(duì)標(biāo)GPT-4o。
騰訊副總裁、云與智慧產(chǎn)業(yè)事業(yè)群COO兼騰訊云總裁邱躍鵬表示,騰訊混元Turbo輸入和輸出價(jià)格只有前代模型的一半,企業(yè)和開發(fā)者可以直接在云上接入使用。
8月6日,科大訊飛智能辦公本Air 2在科大訊飛舉行“AI懂你,輕得自在”智能辦公本新品發(fā)布會(huì)上發(fā)布。Air 2融合了星火大模型能力,除了有“更聰明”的開放式問答及劃詞搜索功能外,還帶來了三大AI絕招——會(huì)議紀(jì)要、筆記分析、AI寫作。
產(chǎn)品更新方面,8月12日,科大訊飛宣布旗下智能文檔產(chǎn)品——訊飛智文2.0全新版本正式上線。新版本基于訊飛星火V4.0大模型底座,引入全新的PPT文本生成大模型、AI PPT編排創(chuàng)作引擎和PPT在線編輯模組,大幅提升編輯自由度和樣式多樣性。據(jù)悉,訊飛智文自2023年11月上線以來,生成文檔數(shù)已超千萬(wàn)。
除此之外,科大訊飛還在8月19日宣布了星火語(yǔ)音大模型更新,正式推出星火極速超擬人交互,打造國(guó)內(nèi)首個(gè)全新中文交互模式,并將在8月底率先開放全民使用。這意味著國(guó)內(nèi)首個(gè)對(duì)標(biāo)GPT-4o語(yǔ)音功能的產(chǎn)品正式到來。據(jù)悉,星火極速超擬人交互響應(yīng)速度更快,對(duì)話更加自然流暢,在響應(yīng)和打斷速度、情緒感知情感共鳴、語(yǔ)音可控表達(dá)、人設(shè)扮演四個(gè)方面實(shí)現(xiàn)突破。
8月22日百度發(fā)布了2024年Q2財(cái)報(bào)。財(cái)報(bào)表示,第二季度百度營(yíng)收339億元,百度核心營(yíng)收267億元;同時(shí),百度核心經(jīng)營(yíng)利潤(rùn)56億元,同比增長(zhǎng)23%。得益于全棧AI技術(shù)優(yōu)勢(shì),以及基于文心大模型構(gòu)建的AI應(yīng)用快速普及,百度正在擴(kuò)大AI落地規(guī)模,以解決現(xiàn)實(shí)世界中的問題,為外部客戶和內(nèi)部產(chǎn)品創(chuàng)造巨大價(jià)值。
與發(fā)布財(cái)報(bào)同日,百度智能云千帆平臺(tái)開始支持對(duì)文心大模型的最新旗艦版ERNIE 4.0 Turbo進(jìn)行精細(xì)化調(diào)整,以滿足企業(yè)客戶的特定業(yè)務(wù)需求。通過模型精調(diào),企業(yè)能夠根據(jù)自己的業(yè)務(wù)數(shù)據(jù)訓(xùn)練出更加貼合自身需求的大模型,從而顯著提升模型在實(shí)際業(yè)務(wù)中的使用效果。通過該服務(wù),百度希望幫助更多客戶探索大模型在不同業(yè)務(wù)場(chǎng)景下的應(yīng)用,推動(dòng)AI技術(shù)在企業(yè)中的深入應(yīng)用和價(jià)值實(shí)現(xiàn)。
在8月底,全球領(lǐng)先的IT市場(chǎng)研究和咨詢公司IDC發(fā)布報(bào)告《中國(guó)大模型平臺(tái)市場(chǎng)份額,2023:大模型元年——初局》,百度智能云位列2023年中國(guó)大模型平臺(tái),市場(chǎng)份額第一,達(dá)到19.9%。
近日,百度官宣文心一言App正式升級(jí)為文小言,定位百度旗下“新搜索”智能助手。據(jù)百度相關(guān)負(fù)責(zé)人介紹,區(qū)別其它搜索產(chǎn)品,文小言推出了富媒體搜索、多模態(tài)輸入、文本與圖片創(chuàng)作、高擬真數(shù)字人等“新搜索”能力,能全面滿足用戶搜、創(chuàng)、聊需求。
同時(shí),文小言獨(dú)家首發(fā)記憶和自由訂閱等全新功能。百度表示,為讓用戶享受更強(qiáng)大的搜索體驗(yàn),文小言即日起還將免費(fèi)開放文心4.0大模型能力,所有用戶整個(gè)9月均可免費(fèi)使用。
8月6日,字節(jié)跳動(dòng)旗下剪映團(tuán)隊(duì)研發(fā)的一站式AI創(chuàng)作平臺(tái)“即夢(mèng) AI”移動(dòng)版上架到蘋果App Store應(yīng)用商店。
據(jù)介紹,即夢(mèng) AI是一個(gè)專為創(chuàng)意愛好者打造的AI表達(dá)平臺(tái),其中包括AI圖片創(chuàng)作、視頻創(chuàng)作、探索創(chuàng)意世界等功能,效果直逼OpenAI 的Dall-E、Sora,以及快手旗下 AI 視頻生成產(chǎn)品可靈、AI圖片生成產(chǎn)品可圖。
在8月21日開始的火山引擎AI創(chuàng)新巡展上海站上,字節(jié)跳動(dòng)也帶來了許多精彩大模型升級(jí)。次巡展的亮點(diǎn)之一是豆包大模型的全新升級(jí),此次升級(jí)不僅提升了豆包語(yǔ)音模型和視覺模型的性能,還進(jìn)一步強(qiáng)化了對(duì)話式AI的實(shí)時(shí)交互解決方案,為AI交互體驗(yàn)帶來了顯著的改善。
與此同時(shí)字節(jié)跳動(dòng)旗下的火山引擎推出了一項(xiàng)對(duì)話式AI實(shí)時(shí)交互解決方案,該方案整合了火山引擎的RTC技術(shù)與豆包大模型,旨在提供更自然、流暢的AI實(shí)時(shí)語(yǔ)音通話體驗(yàn)。這項(xiàng)服務(wù)通過高效的語(yǔ)音數(shù)據(jù)采集、處理和傳輸,結(jié)合語(yǔ)音識(shí)別和語(yǔ)音合成模型,簡(jiǎn)化了語(yǔ)音與文本之間的轉(zhuǎn)換過程,使企業(yè)能夠快速實(shí)現(xiàn)用戶與云端大模型間的實(shí)時(shí)語(yǔ)音交流。
此外,8月21日字節(jié)跳動(dòng)還推出Seed-ASR語(yǔ)音模型,能識(shí)別轉(zhuǎn)錄多語(yǔ)言和方言。Seed-ASR1是一種基于大型語(yǔ)言模型(LLM)的語(yǔ)音識(shí)別模型。Seed-ASR是在音頻條件大語(yǔ)言模型(AcLLM)框架上開發(fā)的,利用了大型語(yǔ)言模型的強(qiáng)大能力,將連續(xù)的語(yǔ)音表示和上下文信息輸入到語(yǔ)言模型中。
通過分階段的大規(guī)模訓(xùn)練以及語(yǔ)言模型中上下文感知能力的引入,Seed-ASR 在綜合評(píng)估集上(涵蓋多個(gè)領(lǐng)域、口音/方言和語(yǔ)言)比傳統(tǒng)的端到端模型有了顯著提升。
近日,字節(jié)跳動(dòng)還表現(xiàn)出了對(duì)“硬件+AI”的極大興趣,開始探索AI耳機(jī)、眼鏡等產(chǎn)品。字節(jié)AI硬件團(tuán)隊(duì)的第一款產(chǎn)品是集成豆包大模型的智能耳機(jī)。用戶在戴上該智能耳機(jī)后,可通過語(yǔ)音對(duì)話隨時(shí)使用豆包,同時(shí)在豆包App上也可以操控這款耳機(jī)。同時(shí),字節(jié)跳動(dòng)也表現(xiàn)了對(duì)AI眼鏡領(lǐng)域表現(xiàn)出了濃厚的興趣,并可能通過投資或內(nèi)部團(tuán)隊(duì)研發(fā)的方式進(jìn)入這一市場(chǎng)。據(jù)悉,字節(jié)跳動(dòng)已經(jīng)與某互聯(lián)網(wǎng)公司的前大模型核心技術(shù)人物合作,共同研發(fā)AI眼鏡。
8月27日,智譜 AI宣布GLM-4-Flash大模型免費(fèi)開放,通過智譜 AI大模型開放平臺(tái)調(diào)用。GLM-4-Flash適用于完成簡(jiǎn)單垂直、低成本、需要快速響應(yīng)的任務(wù),生成速度能達(dá)到72.14 token/s,約等于 115 字符/s。GLM-4-Flash具備多輪對(duì)話、網(wǎng)頁(yè)瀏覽、Function Call(函數(shù)調(diào)用)和長(zhǎng)文本推理(支持最大 128K 上下文)等功能,同時(shí)支持包括中文、英語(yǔ)、日語(yǔ)、韓語(yǔ)、德語(yǔ)等在內(nèi)的 26 種語(yǔ)言。
緊接著,8月28日智譜 AI開源了CogVideoX-5B視頻生成模型,相比此前開源的CogVideoX-2B,官方稱其視頻生成質(zhì)量更高,視覺效果更好;8月29日,智譜清言App將上線視頻通話功能。智譜方面介紹,清言App的視頻通話功能,具有跨文本、音頻和視頻進(jìn)行實(shí)時(shí)推理的能。
在融資方面,近日,智譜以200億元的投前估值,完成了新一輪融資,這是2024年以來智譜完成的第三筆。
目前,智譜的股東陣容包括高瓴資本、啟明創(chuàng)投、君聯(lián)資本等知名投資機(jī)構(gòu)以及美團(tuán)、阿里、騰訊、小米在內(nèi)的互聯(lián)網(wǎng)大廠。
8月6日,通義 App上線新功能“角色扮演”。據(jù)介紹,“角色扮演”功能背后的“核心技術(shù)”是通義實(shí)驗(yàn)室研發(fā)的AI模型 Motionshop。其支持在不改變周邊場(chǎng)景的情況下,利用視頻處理、角色跟蹤 / 分割、姿態(tài)估計(jì)、路徑追蹤渲染等多種技術(shù),使動(dòng)態(tài)視頻中的主角“跨越現(xiàn)實(shí)與虛擬的界限”。
兩天后,阿里云宣布域名產(chǎn)品服務(wù)完成AI化系列改造,推出首個(gè)基于通義大模型的域名AI應(yīng)用,升級(jí)后的阿里云萬(wàn)網(wǎng)可通過輸入品牌名稱和所屬行業(yè)大模型批量生成創(chuàng)意域名。此次阿里云上新的域名后綴包括“.ai”“.car”“等。同時(shí),阿里云也進(jìn)一步擴(kuò)充熱門域名資源。數(shù)據(jù)顯示,“.ai”域名的注冊(cè)量較2023年同比增長(zhǎng)72.96%,谷歌、臉書、微軟等公司紛紛注冊(cè)了帶“.ai”后綴的網(wǎng)站,引流到AI產(chǎn)品頁(yè)面。
在語(yǔ)言大模型的開源和突破上,八月阿里也取得了突出進(jìn)展。8月13日,阿里通義大模型對(duì)外宣布開源Qwen2系列音頻語(yǔ)言模型Qwen2-Audio。Qwen2-Audio可以不需文本輸入,直接進(jìn)行語(yǔ)音問答,理解并分析用戶輸入的音頻信號(hào),包括人聲、自然音、音樂等。
通義團(tuán)隊(duì)還同步推出了一套全新的音頻理解模型測(cè)評(píng)基準(zhǔn),相關(guān)論文已入選本周正在舉辦的國(guó)際頂會(huì)ACL 2024;8月30日,阿里通義千問發(fā)布第二代視覺語(yǔ)言模型Qwen2-VL,旗艦?zāi)P?Qwen2-VL-72B的API已上線阿里云百煉平臺(tái)。在多個(gè)權(quán)威測(cè)評(píng)中,Qwen2-VL部分指標(biāo)甚至超越了 GPT-4o 和 Claude3.5-Sonnet 等閉源模型。
8月12日,360集團(tuán)創(chuàng)始人、董事長(zhǎng)周鴻祎在網(wǎng)絡(luò)社交平臺(tái)發(fā)布視頻表示,大模型提供了兩個(gè)巨大的機(jī)會(huì)。
他談到,大模型帶來了新的商業(yè)化機(jī)會(huì)。周鴻祎表示,用大模型賦能互聯(lián)網(wǎng)用戶,可能能幫助360盡快從廣告模式轉(zhuǎn)向用戶使用各種能力付費(fèi)訂閱的模式,“這樣也可以解決廣告給用戶帶來的困擾?!?/p>
在應(yīng)用更新方面,八月360AI 助手推出了全新的模型競(jìng)技場(chǎng)功能。用戶可以從多個(gè)大模型中選擇,輸入相同的提示詞,直觀地比較不同模型的輸出結(jié)果。
該功能還提供了豐富的提示詞題庫(kù),涵蓋邏輯推理、語(yǔ)言理解等多個(gè)維度,幫助用戶全面評(píng)估各大模型的性能。這將讓用戶的模型選擇更加客觀和全面。
值得注意的是,此前360創(chuàng)始人周鴻祎曾宣布360瀏覽器將新增AI助手懸浮按鈕,整個(gè)360生態(tài)也將圍繞AI助手進(jìn)行布局。
8月14日,昆侖萬(wàn)維正式發(fā)布全球首個(gè)AI流媒體音樂平臺(tái)Melodio,并同步推出AI音樂商用創(chuàng)作平臺(tái)Mureka。兩款產(chǎn)品均搭載昆侖萬(wàn)維新款自研DiT(Diffusion Transformer)架構(gòu)音樂大模型Skymusic 2.0,這也是業(yè)內(nèi)首個(gè)能夠持續(xù)穩(wěn)定生成特定風(fēng)格歌曲的AI音樂大模型。
除此之外,8月19日,昆侖萬(wàn)維推出了全球首個(gè)集成視頻大模型與3D大模型的 AI短劇平臺(tái) SkyReels。SkyReels平臺(tái)搭載了昆侖萬(wàn)維自研的劇本大模型SkyScript、分鏡大模型StoryboardGen、3D生成大模型Sky3DGen,以及創(chuàng)新平臺(tái)WorldEngine,這些技術(shù)的支持使得平臺(tái)能夠一鍵生成完整的劇本、分鏡、人物對(duì)白與背景音樂,并自動(dòng)轉(zhuǎn)換為1080P 60幀的高清視頻,單次生成視頻長(zhǎng)度可達(dá)180秒,極大提高了視頻創(chuàng)作效率并降低了成本。
SkyReels 平臺(tái)的推出預(yù)示著“一人一劇”時(shí)代的加速到來,它不僅為專業(yè)內(nèi)容創(chuàng)作者提供了強(qiáng)大的創(chuàng)作工具,也極大地降低了AI短劇創(chuàng)作的門檻,使得非專業(yè)用戶也能輕松上手。這一工具有望促進(jìn)AI短劇用戶生成內(nèi)容(UGC)與專業(yè)用戶生成內(nèi)容(PUGC)的爆發(fā)式增長(zhǎng),推動(dòng)短劇內(nèi)容創(chuàng)作與消費(fèi)市場(chǎng)的進(jìn)一步快速增長(zhǎng)。
月初,商湯科技推出一款幫助用戶生成創(chuàng)意寫真、合照的AIGC產(chǎn)品“秒畫趣拍”小程序版。據(jù)悉,上線萬(wàn)大關(guān),用戶總量更是飆升至146萬(wàn),日頁(yè)瀏覽量(PV)高達(dá)4117萬(wàn)次,網(wǎng)絡(luò)請(qǐng)求量更是突破億次。
月末,商湯「辦公小浣熊」正式在聯(lián)想應(yīng)用商店上線,為廣大PC用戶提供AI時(shí)代的新質(zhì)生產(chǎn)力,提升辦公效率。借助聯(lián)想應(yīng)用商店平臺(tái),「辦公小浣熊」用戶可以在PC端就能高效地體驗(yàn)AI大模型能力在財(cái)務(wù)分析、商業(yè)分析、銷售預(yù)測(cè)、市場(chǎng)分析等辦公場(chǎng)景的應(yīng)用。
除此之外,八月份商湯集團(tuán)發(fā)布了2024上半年業(yè)績(jī)公告,報(bào)告顯示,上半年收入17.4億元,同比增長(zhǎng)21%,生成式AI業(yè)務(wù)收入近11億元,同比大幅增長(zhǎng)256%,占集團(tuán)收入躍升至6成。集團(tuán)整體毛利潤(rùn)為近8億元,同比增長(zhǎng)18%,毛利率為44%。相較去年同期,整體期間虧損同比減少約7億元。日日新大模型推理成本快速下降,模型調(diào)用量顯著增長(zhǎng)。
8月6日,面壁智能開源了 MiniCPM-V 2.6模型,僅 靠8B參數(shù)取得 20B以下單圖、多圖、視頻理解3 SOTA成績(jī)。官方表示將端側(cè)AI多模態(tài)能力拉升至全面對(duì)標(biāo)GPT-4V水平。
8月27日,阿里智能信息事業(yè)群旗下夸克發(fā)布PC端,升級(jí)了AI搜索、AI寫作、AI PPT、AI文件總結(jié)等一系列“系統(tǒng)級(jí)全場(chǎng)景AI”功能。此前,夸克已在App端推出全新AI搜索。
據(jù)悉,近日夸克在App端推出的全新AI搜索,此次一并在PC端發(fā)布,并升級(jí)了更強(qiáng)的模型能力,提升到更快的交互速度??淇薃I回答的首字出現(xiàn)速度和吐字速度大幅領(lǐng)先行業(yè),瞬時(shí)就能給出精準(zhǔn)答案。三欄式的界面設(shè)計(jì)能更清晰地展現(xiàn)圖文、視頻等生成式回答和網(wǎng)頁(yè),讓用戶一眼就能得到核心信息。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問。