3
發(fā)布日期:2024-09-22 15:52 瀏覽次數(shù):
時代的算法》、《神經網絡與深度學習應用實戰(zhàn)》、《突圍算法》等技術著作,作為發(fā)明人申請
麻省理工學院(MIT)等機構近日發(fā)表在頂級學術期刊《自然》雜志的一篇文章觀察到,語言并不等于思維。這引發(fā)了AI社區(qū)的廣泛討論,以chatGPT為代表的大語言模型通向通用(AGI)的路線完全錯了?
巖芯數(shù)智CEO劉凡平在接受第一財經專訪時表示,他認同語言并不等于思維,以chatGPT為代表的大語言模型在思維如何表征的算法上做得并不好,算法上的局限性導致大模型并不具備自我學習的能力,如何解決模型個性化即時學習成為關鍵。
由劉凡平帶隊的RockAI于2024年1月發(fā)布了非Transformer架構的通用自然語言大模型——Yan1.0模型,同時提出“同步學習”概念,允許模型在訓練和推理過程中實時更新知識,這種學習方式類似于人類大腦的工作機制,能夠快速適應新的情況和需求。
以chatGPT為代表的Transformer大模型需要前期通過大量文本數(shù)據(jù)進行預訓練,讓模型學習語言的通用模式和知識。在預訓練完成后,通過在特定下游任務中進行微調對齊,激發(fā)模型舉一反三的能力。通過這些訓練機制,Transformer大模型能夠模擬人類語言表示,并在多種任務上展現(xiàn)出卓越的性能。
“人類語言表達只是思維的表象,我們不能僅憑表象實現(xiàn)通用人工智能。Transformer大模型通過海量數(shù)據(jù)訓練模擬人類語言表達,但表象的模擬并不等于思維,這也是近期chatGPT被質疑是否能夠實現(xiàn)通用人工智能的原因之一?!眲⒎财皆诮邮懿稍L時表示。
同時,Transformer大模型每一次訓練都需要耗費巨大的算力和數(shù)據(jù)。劉凡平表示,Transformer大模型雖然目前能通過預訓練實現(xiàn)舉一反三的能力,在實踐中卻有著不能實時改進和學習的問題,每3-6個月都需要重新訓練一次。
“以chatGPT為代表的Transformer大語言模型在思維如何表征的算法上做得并不好,算法上的局限性導致大模型并不具備自我學習的能力,這也是我們一開始就選擇不follow‘Transformer’大模型技術路線的原因?!眲⒎财奖硎?,通用人工智能本身應該有多種實現(xiàn)方式,算法是核心,希望探索一條新的路徑,能夠效率更高、效果更好。
劉凡平表示,主流Transformer大模型的全參數(shù)激活本身就是不必要的大功率消耗,思維的表達方法和呈現(xiàn)方法是Yan模型算法的重要方向,參考人腦大概800億-1000億個神經元,人在開車和讀書時分別激活的是腦部的視覺區(qū)域和閱讀區(qū)域,實現(xiàn)大模型根據(jù)任務需求分區(qū)激活才是符合人腦的方式,這不僅可以減少訓練數(shù)據(jù)量,同時也能有效發(fā)揮多模態(tài)的潛力。
據(jù)悉,RockAI的Yan模型是基于仿生神經元驅動的選擇算法,模型可以根據(jù)學習的類型和知識的范圍分區(qū)激活,同時RockAI提出同步學習概念,在對知識更新和學習時,模型層面訓練和推理同步進行,以期實時、有效且持續(xù)性地提升大模型的智能智力,應對各類個性化場景中出現(xiàn)的問題。
它的底層原理是利用神經網絡訓練的前向傳播和反向傳播,前向傳播就像是神經網絡在嘗試回答問題,而反向傳播則是在檢查答案對不對,并學習如何改進答案。RockAI給出的同步學習解法核心在于不斷嘗試尋找反向傳播的更優(yōu)解,以更低代價更新神經網絡,同時以模型分區(qū)激活降低功耗和實現(xiàn)部分更新,從而使得大模型可以像人類學習一樣建立自己獨有的知識體系。
在研發(fā)進度方面,今年3月,Yan 1.2模型已經實現(xiàn)類腦分區(qū)激活的工作機制,5月底,實現(xiàn)全模態(tài)部分視4166am金沙覺支持,目前同步學習仍在實驗室最后驗證階段,仍需要大規(guī)模測試。劉凡平表示,隨著把多模態(tài)的視覺、觸覺和聽覺能力補齊,Yan 2.0最快將于今年年底面世。
人工智能技術飛速發(fā)展,大模型在實現(xiàn)通用人工智能(AGI)方面雖展現(xiàn)出巨大潛力,但傳統(tǒng)的Transformer架構在端側部署時面臨算力成本高、運算速度慢和隱私安全等挑戰(zhàn),端側智能的實現(xiàn)已成為科技界的新戰(zhàn)場。
首先,Transformer大模型對算力的高需求使得端側設備難以承擔,尤其是在移動設備和物聯(lián)網設備上;其次,端側部署需要快速響應,但Transformer模型往往因為其復雜的計算過程導致運算速度受限;此外,數(shù)據(jù)隱私和安全問題也日益凸顯,用戶對于數(shù)據(jù)在云端處理的安全性和隱私性越來越關注。
“相較于Transformer大模型哪怕回答一個‘你好’都需要全參數(shù)激活,Yan模型類腦分區(qū)激活的工作機制在低算力設備上的部署具備天然優(yōu)勢。”劉凡平表示。
劉凡平表示,確保算法兼容終端設備乃為必要前提,唯有實現(xiàn)終端應用與運行之暢通無阻,方能充分發(fā)揮人工智能于現(xiàn)實場景的應用潛力及商業(yè)價值。
目前Transformer大模型通過剪枝(Pruning)、量化(Quantization)和知識蒸餾(Knowledge Distillation)等技術減小模型大小,降低模型對內存和計算資源的需求,能夠實現(xiàn)在PC或者高端手機等高算力終端設備上的部署。
“高、低端終端設備的算力差距很大,為了滿足例如工業(yè)等更廣泛的終端應用場景,端側部署的競爭需要向更低端設備走。”劉凡平表示,在“樹莓派”上率先跑通是Yan模型證明在低算力設備實現(xiàn)無損本地化部署的里程碑。
樹莓派(Raspberry Pi)由英國樹莓派基金會開發(fā),作為全球最為知名的袖珍型小巧卻又廣泛應用的微型電腦,可應用于、工業(yè)自動化、智慧農業(yè)、新能源、智能家居等場景及設備,譬如門禁、機器人等終端。
采訪現(xiàn)場,RockAI工作人員展示了一臺部署了搭載Yan模型的樹莓派微型電腦的小型人形,在不聯(lián)網的狀態(tài)下,該小型人形可以十分流暢地與記者進行對話、理解周邊環(huán)境和讀書。現(xiàn)場工作人員表示,該搭載Yan模型的樹莓派成本僅數(shù)百元。
“除了解決在低算力終端部署的難題,Yan模型還希望能夠解決模型的個性化自主學習問題?!眲⒎财奖硎荆赥o B的實踐中,尤其是在需要嚴謹內容的應用場景下,一旦內容和評價發(fā)生較大轉變,Transformer大模型往往要1-2個月把數(shù)據(jù)清掉重新訓練后再交付,客戶一般很難接受。
“隨著同步學習進入實驗室最后驗證階段,全模態(tài)支持+實時人機交互+同步學習的落地,Yan 2.0的出現(xiàn)將進一步促進從感知到認知再到決策的智能循環(huán)加速?!眲⒎财奖硎?,同步學習技術采用一種持續(xù)進化的策略,使得機器學習模型能夠在任意時間點接納并整合新知識,從而實現(xiàn)對環(huán)境變化的高度動態(tài)適應性。在實現(xiàn)同步學習的過程中,不單要解決實時數(shù)據(jù)處理、保持模型性能穩(wěn)定不出現(xiàn)劇烈效果波動、災難性遺忘等問題,而且要面對端側硬件的適配和性能優(yōu)化工作。
劉凡平也坦言,目前仍需要完善設備前期適配工作,端側模型需要結合實際硬件去做適配研究和迭代改進,離終極的個性化AI還需要時間,每種硬件設備都有其獨特的架構以及限制條件,RockAI工程團隊花了大量精力確保模型能夠在有限的計算資源下運行時保持較高的性能和響應速度。
除了Intel、Arm這些在PC和機器人上已經展示的芯片,RockAI也在積極適配國產芯片,由于是自研的非Transformer架構,團隊需要平均投入1-2個月的時間適配完一款。據(jù)悉,目前越來越多的和機器人廠商已經主動提供硬件,RockAI的研發(fā)團隊也將迎來更多的挑戰(zhàn)。
展望未來,劉凡平表示,目前定位的是支持云端和端側的大模型,未來目標是成為通用人工智能操作系統(tǒng),類似于windows或者蘋果iOS系統(tǒng),可以部署在手機、電腦,甚至電視、音箱、機器人等各類設備,根據(jù)用戶的自然語言、行為以及所屬的場景進行自主學習,實現(xiàn)個性化的通用人工智能服務,最終形成可交互的多樣性機器智能生態(tài)。
通往通用人工智能的道路無疑充滿了不確定性與爭議,RockAI所選擇的非Transformer架構路徑更是如此。然而,在這充滿挑戰(zhàn)與未知的征途上,亦蘊藏著無限可能。RockAI正努力為業(yè)界帶來新的思考與探索。