ICC訊 在巴黎舉行的VivaTech 2025科技大會上,Meta首席AI科學家Yann Le Cun勾勒出一份實現(xiàn)高級機器智能(AMI)的雄心勃勃路線圖,其核心是基于視頻預測模型V-JEPA V2。該模型旨在解決AI面臨的三大核心挑戰(zhàn):理解物理世界、推理和規(guī)劃。
"V-JEPA是首個能真正學習物理世界運行規(guī)律的系統(tǒng)之一,"Le Cun表示。與早期試圖在像素級別預測視頻幀的方法不同,V-JEPA通過預測視頻內容的抽象表征來學習,這種自監(jiān)督學習方式被Le Cun描述為取得突破的關鍵。
與大型語言模型(LLM)不同,視頻預測在確定性預測方面一直存在困難。"直到最近,這方面都算是失敗的,"他坦言。
V-JEPA V2在完成表征層面的視頻內容預測訓練后,將進入第二階段:世界建模。該模型能預測世界狀態(tài)如何隨著想象的行為而演變,使系統(tǒng)能夠預判結果并做出相應規(guī)劃。"系統(tǒng)可以想象一系列動作的后果,"Le Cun解釋道。Meta已將該模型應用于規(guī)劃機械臂動作,如抓取物體或開門,而無需進行特定任務訓練。
Le Cun特別區(qū)分了V-JEPA與生成式AI的不同:"V-JEPA架構不是生成式架構,因為它們不試圖重建或預測訓練所基于的世界。它們學習的是抽象表征,并在該抽象表征空間中進行預測。"他指出,大型語言模型缺乏這類內部世界模型,"它們基本上是盲目地基于訓練內容進行規(guī)劃或生成。"
不過,Le Cun也承認大型語言模型在代碼生成等領域的實用性。"它們很有用。我們也在研究它們,但這屬于短期工作。Meta的基礎AI研究團隊(FAIR)總是比當前AI潮流領先三到十年。"
在人工智能理論方面,Le Cun明確否定了"通用人工智能"(AGI)這一術語。他認為人類智能本質上是專業(yè)化的:"很遺憾地說,人類智能一點也不通用。我們比大多數(shù)動物稍微通用一些,但某些動物在某些領域比我們更聰明,當然計算機在某些任務上表現(xiàn)也比我們更好,這意味著我們在某種程度上是專業(yè)化的。"
為此,Le Cun提出了Meta內部使用的術語:人工超級智能(ASI)和高級機器智能(AMI)。"超級智能并不意味著通用,"他強調,"它只是在某些領域比人類略強。"Meta的長期計劃是開發(fā)"與人類一樣聰明甚至更勝一籌"的AI助手。AMI藍圖聚焦于能夠理解物理世界、具備常識、擁有持久記憶、能推理規(guī)劃且安全可控的系統(tǒng)。
關于超級智能的本質,Le Cun以已在國際象棋、撲克和路線規(guī)劃等特定領域超越人類的AI系統(tǒng)為例。他將AI的未來定位為"增強智能",人類將獲得在某些任務上更聰明的AI助手支持,如同擁有虛擬專家團隊。"與比你聰明的人或機器共事能帶來賦能,"他說。
Le Cun設想未來將出現(xiàn)具有用戶知識和偏好心理模型的智能代理系統(tǒng)。"這些系統(tǒng)將建立關于我們已知什么、未知什么、能消化什么信息、可能對哪類信息感興趣的心理模型,"他表示。這類系統(tǒng)將能規(guī)劃復雜行動,如預訂旅行或管理家庭設備。
未來幾個月,Meta計劃擴大訓練規(guī)模,將V-JEPA應用于更廣泛場景,并改進訓練方法。"我們可以用這些模型為機器人規(guī)劃簡單動作,"Le Cun說。團隊還在探索更有效的V-JEPA架構訓練方法和分層規(guī)劃改進方案。
以紐約到巴黎的旅行為例,Le Cun說明了規(guī)劃面臨的挑戰(zhàn):從預訂航班到開門走向電梯,需要在不同抽象層面進行規(guī)劃。"我們還不能規(guī)劃很長的動作序列,"他坦言,"對于需要多個動作的復雜任務,我們需要分層規(guī)劃,這完全是個未解難題。我們尚不知道如何用AI系統(tǒng)實現(xiàn)...我們有些想法,但仍處于研究階段。"
被問及如何解決這些問題時,Le Cun回答:"我們聘請聰明人才,并努力說服他們這是值得研究的有趣問題。"他強調跨學科合作的重要性,特別是對于需要應用數(shù)學見解的分層規(guī)劃等問題。"這是科學問題,不是技術開發(fā)問題,"Le Cun說,并強烈呼吁開源合作。"我們需要匯集科學界、學術界、其他公司和公共研究機構中可能對此有所貢獻的所有人才。這就是為什么我們需要實踐開放研究。我們開源代碼,V-JEPA V2就是開源的。"
關于超級智能的發(fā)展進度,Le Cun給出了謹慎預測:"如果一切順利,如果我們設想的所有技術都奏效,并且在開發(fā)過程中只遇到常規(guī)困難,我們將在三年內較好地掌握這類V-JEPA方法。"他預計五年內將看到能夠理解物理世界的初步成果或原型系統(tǒng),可能達到"貓或老鼠的水平"。之后他設想系統(tǒng)將具備規(guī)劃能力,不僅在基礎物理世界層面,還包括某些抽象領域,可能與語言、數(shù)學或幾何相關。"我們終將達到人類智能水平,但這肯定比我們想象的更難,"他表示。
"大約五年內,我們將開始看到這方面更具體的應用,"Le Cun補充道。
新聞來源:訊石光通訊網(wǎng)