媒體報道
2025年07月26日
澎湃新聞 | 全球首個擁有“原生記憶力”的大模型Yan 2.0 Preview亮相WAIC2025
分享
7月26日,全球首個擁有“原生記憶力”的大模型Yan 2.0 Preview在2025?世界人工智能大會上正式亮相。
在Transfromer架構(gòu)幾乎在大模型賽道上“一騎絕塵”之際,來自上海張江的一支不到百人組成的AI初創(chuàng)團隊RockAI(巖芯數(shù)智),選擇了一條“非共識”之路——自研全新的Yan架構(gòu)大模型,以神經(jīng)元選擇激活(類腦激活機制)以及狀態(tài)記憶這兩個模塊替換了Transformer里面的Attention機制。
RockAI團隊想通過底層架構(gòu)創(chuàng)新,減少冗余計算和算力消耗,“讓世界上每一臺設(shè)備擁有自己的智能(Make every device its own intelligence)”,最終實現(xiàn)AGI的終局——群體智能。
當大模型具備記憶能力
相較于此前發(fā)布的Yan1.3系列模型,此次發(fā)布的Yan2.0 Preview模型,“不僅能夠看懂、聽懂、說清楚,還能夠記住我們。”在25日的媒體溝通會上,RockAI CTO楊華向媒體展示了Yan 2.0 Preview模型的記憶能力。

RockAI CTO楊華正在演示
在他和模型對話過程中,模型會記住楊華的家鄉(xiāng)、出生年月日等這類基本人物信息,甚至還能記住他的生活習(xí)慣。
比如,楊華在對話框里輸入,“我最近胃不好,有點難受”。當他第二次進入對話框輸入,“推薦一款面食給我”時,模型記住了他的出生背景、包括近期飲食習(xí)慣等,最終模型給他的回復(fù)是“雖然可以推薦面條做法,但注意到您不能吃太多面食,建議嘗試其他主食如米飯或饅頭,或者選擇其他容易消化的食物。”
楊華認為,這說明模型已經(jīng)對用戶的偏好有了整體的把握。
這背后則反映了Yan 2.0 Preview模型的一個關(guān)鍵機制:它并不是簡單依賴上下文窗口來理解用戶,而是能將過往的對話內(nèi)容“內(nèi)化”進模型的行為邏輯中。
這種自主理解的能力,在此次WAIC展會現(xiàn)場,RockAI團隊也會在現(xiàn)場為觀眾演示。此外,他們團隊還帶來了兩款互動游戲:“推箱子”和“黃金礦工”,這兩款游戲通過靈巧手搭載Yan 2.0 Preview模型協(xié)作完成。
RockAI CEO劉凡平向現(xiàn)場觀眾演示模型在完全斷網(wǎng)、離線的狀態(tài)下依然可以實現(xiàn)自然對話、操控游戲的能力,吸引不少科技迷圍觀。讓不少觀眾第一次直觀感受到:AI,并不一定非要依賴“云”。
![]()
RockAI演示視頻,展示自主學(xué)習(xí)能力
在“推箱子”游戲中,模型需要識別場景中的障礙物與目標位置,規(guī)劃路徑后將多個箱子逐一推送到指定區(qū)域。整個過程中,模型還會同步輸出自己的“思考邏輯”,例如:“為什么要從A點推到B點”,將AI決策過程可視化。在“黃金礦工”游戲中,模型需要識別出黃金與石頭的位置,并發(fā)出精準指令,控制“抓手”完成出爪操作。這一過程不僅涉及視覺和語音的多模態(tài)理解識別,還包括動作規(guī)劃、精準定位等能力。
值得一提的是,模型還具備對環(huán)境變化的實時感知能力。例如,如果攝像頭視野被遮擋,模型會立即感知到“視覺受阻”,并暫停執(zhí)行下一步動作。這種基于視覺輸入的動態(tài)反饋能力,體現(xiàn)了Yan 2.0 Preview在多模態(tài)感知、人機交互和環(huán)境理解方面的智能化水平。

現(xiàn)場搭載Yan2.0 Preview模型的機器狗
“我們一直想做的事情是,打造一個能真正適應(yīng)物理世界變化、具備多模態(tài)理解和交互能力的模型。”楊華說,“這個模型剛出廠時可能并不是最聰明的,但模型能夠根據(jù)用戶所處環(huán)境的變化,實時學(xué)習(xí)并習(xí)得新的信息,從而做出針對用戶習(xí)慣的個性化響應(yīng)。”楊華說。
“譬如,在居家場景里,向搭載Yan 2.0 Preview模型的家用機器人介紹空間布局、家人的生活習(xí)慣、飲食偏好等內(nèi)容,模型就能理解并記住,在后續(xù)服務(wù)中自動適配,提供真正貼合你的個性化體驗。”
大模型底層架構(gòu)創(chuàng)新
要讓模型實現(xiàn)“邊學(xué)邊用”,并非只靠調(diào)算法參數(shù),而要從大模型架構(gòu)底層打破傳統(tǒng)。
在這波全球人工智能熱潮中,很多主要模型產(chǎn)品如GPT、LLAMA、PaLM 等,都是基于 Transformer 模型架構(gòu)構(gòu)建的。Transformer 的概念最早出現(xiàn)在谷歌研究人員 2017 年的論文《Attention is All You Need》中,關(guān)鍵見解在于,注意力可以作為推導(dǎo)輸入和輸出之間依賴關(guān)系的唯一機制。
Transformer 的核心在于能快速捕捉輸入內(nèi)容各部分間的相互作用,適用于處理句子中的片段、音樂中的音符、圖像中的像素、蛋白質(zhì)的部分等各種任務(wù)。
不過,盡管Transformer 模型在人工智能領(lǐng)域取得了顯著成就,但它們也存在一些局限性。
事實上,行業(yè)內(nèi)對于是否一直要堅定不移地走Transformer架構(gòu)曾有過爭論之聲。RockAI團隊指出,從圖靈獎得主Yann LeCun到一線學(xué)者再到產(chǎn)業(yè)開發(fā)者,都不約而同提到過一個問題:Transformer或許并不是通向通用人工智能(AGI)的唯一解法。
著名的圖靈獎獲得者Yann Lecun曾說,“ChatGPT、Gemini等大家熟悉的模型雖然表現(xiàn)驚人,但它們經(jīng)常出現(xiàn)愚蠢的錯誤,比如事實錯誤、邏輯錯誤、不一致、推理有限、毒性等。此外,大語言模型對潛在現(xiàn)實的了解有限,缺乏嘗試,沒有記憶,而且無法規(guī)劃答案。”
包括產(chǎn)業(yè)界也開始逐步意識到,Transformer 的主要局限性包括高昂的計算成本、推理能耗高、對語料的數(shù)量和質(zhì)量依賴極高,此外,模型提升主要依賴于“喂數(shù)據(jù)”和“堆參數(shù)”,帶來了“幻覺”,以為模型真的“理解”了,但模型的本質(zhì)理解能力并未增強,CEO劉凡平說。
RockAI技術(shù)團隊從創(chuàng)業(yè)之初一開始放棄了主流的Transformer架構(gòu),轉(zhuǎn)而自研全新的Yan架構(gòu),以神經(jīng)元選擇激活(類腦激活機制)以及狀態(tài)記憶這兩個模塊替換了Transformer里面的Attention機制。

“我們想做真正有差異化的架構(gòu),如果跟國內(nèi)互聯(lián)網(wǎng)大廠做同質(zhì)化競爭,創(chuàng)業(yè)公司很難有競爭力。”楊華說。
從2024年1月,RockAI確定技術(shù)路線至今,Yan系列模型架構(gòu)從1.0 更新迭代升級至現(xiàn)在的 Yan 2.0 Preview,楊華回憶起整個研發(fā)過程并不算順利。
“這期間,機器幾乎一直沒有停過,一直在訓(xùn)練、迭代、驗證。”楊華稱,“最大的難點并不在于某個技術(shù)上的卡點,而在于模型架構(gòu)和數(shù)據(jù)之間經(jīng)常暴露出問題。比如一個模型架構(gòu)在小批量數(shù)據(jù)上效果不錯,但一上大規(guī)模數(shù)據(jù)就會暴露出新問題。有時架構(gòu)調(diào)整后,某些能力又達不到預(yù)期。”楊華回憶道。
相較于Transformer架構(gòu),最終迭代升級的Yan架構(gòu)大模型好處在于,能耗低、成本小、落地周期快。
從單體智能走向群體智能
楊華稱,在類腦激活機制和狀態(tài)記憶這兩塊技術(shù)模塊的加持下,Yan架構(gòu)的設(shè)計理念秉承三點:
一是類人的感知,我們認為模型跟外界環(huán)境的接觸,不僅僅是文本一種形態(tài),還會有視覺形態(tài),也會有語音形態(tài)。
二是類人的交互,如果我們過度依賴于云端的模型,隱私的安全、通信的延遲,都有可能成為它的瓶頸。
三是類人的學(xué)習(xí),現(xiàn)在的模型部署后,在和物理世界交互的過程中并不會獲得二次進化的能力。
基于Yan架構(gòu)的多模態(tài)大模型,無論是部署在機器人還是其他端側(cè)設(shè)備中,都能實現(xiàn)環(huán)境感知、通用問答、離線智能。

有了自主學(xué)習(xí)的能力,大模型最終會演變成什么樣?
RockAI 給出的答案是實現(xiàn)協(xié)同化群體智能(Collective intelligence),這也是RockAI認為通往AGI的一條可能的路線。
RockAI對人工智能時代的群體智能定義為:具備自主學(xué)習(xí)的若干智能單元,通過環(huán)境感知、自我組織、互動協(xié)作共同解決復(fù)雜問題,并在不斷變化的環(huán)境中實現(xiàn)整體智能提升。很早之前,群體智能存在于生物界。螞蟻蟻群會在一起搬運食物、搭建蟻巢;蜜蜂會各司其職,協(xié)作維護蜂巢。這些都是生物界群體智能的表現(xiàn)。
而在AGI的世界里,想象一個畫面,單元大模型的智慧,能夠反哺整個大模型群體,讓AI無數(shù)個智能群體變得更聰明、更通用智能。
要實現(xiàn)這一終極目標,并不是一件簡單的事。RockAI將愿景分了四個階段。
第一階段是架構(gòu)的重塑,架構(gòu)的重塑意味著可以不再依賴于Transformer這一套單一的技術(shù)體系。
第二階段是單體的推理。非Transformer架構(gòu)的模型能夠在更廣泛的設(shè)備端進行推理和部署,不再依賴于云端的計算資源,甚至不再依賴于通信網(wǎng)絡(luò)的存在。
第三階段是目前在實驗室階段的單體智能,要求現(xiàn)在的模型達到自適應(yīng)智能進化,這一階段能夠賦予機器自主學(xué)習(xí)與自我優(yōu)化能力,構(gòu)建持續(xù)進化的智慧生態(tài)。
第四階段實現(xiàn)協(xié)同化群體智能,構(gòu)筑機器間信息互換與協(xié)作體系,實現(xiàn)機器群體智能的突破性進展。
“四個階段彼此遞進,呈螺旋式上升。”楊華說,現(xiàn)階段RockAI已經(jīng)邁向第三階段,隨著Yan 2.0 Preview模型的發(fā)布和之后模型的進一步升級迭代,模型的自主學(xué)習(xí)、自我優(yōu)化能力會進一步提升。
現(xiàn)在Yan系列模型已經(jīng)廣泛適配PC、手機、機器人、樹莓派、無人機等端側(cè)設(shè)備。
當所有大模型還在堆Transformer層數(shù)、追求“更大”時,RockAI率先喊出另一種主張——“Attention is not all you need.”
Yan 2.0 Preview或許只是一個開始,但它至少讓我們看到有另一種路徑的可能:
未來的智能,不必一定高度仰賴某個中心,也可以由千萬個端點共同生長。接下來,模型個性化時代真正開始,智能重新定義硬件。CEO劉凡平說。
推薦新聞