界面新聞記者 | 伍洋宇 周末
界面新聞編輯 | 文姝琪
互聯(lián)網(wǎng)巨頭正在激烈進行大模型角力,面壁智能創(chuàng)始人李大海沒覺得生存空間被壓縮,他的判斷仍然樂觀。
“AI本身就是一個產業(yè)級機會,是第四次技術革命,創(chuàng)業(yè)公司肯定有大量的機會?!彼f,“就看到底是進入極其廣闊的市場占據(jù)一小部分份額,還是在更聚焦的場景中爭取頭部位置——這只取決于你自己的策略是什么。”
“全模態(tài)模型+端側硬件”是個好策略嗎?面壁智能正試圖照此進一步推動大模型從云端走向終端設備。
2月4日,面壁智能發(fā)布新一代全模態(tài)模型MiniCPM-o 4.5,并同時推出首款硬件產品智能開發(fā)板松果派(Pinea Pi),計劃于今年量產上市。
MiniCPM-o 4.5是一款參數(shù)規(guī)模約9B的全模態(tài)大模型,同時支持視頻、音頻、文本流輸入,以及文本與語音的連續(xù)輸出。該模型被定義為全雙工全模態(tài)模型:在輸出內容的同時,仍可持續(xù)接收多模態(tài)輸入信息,并且可在不阻塞輸入輸出的情況下,實時調整回應策略。

同時,模型在輸出過程中,不會中斷對外界環(huán)境的感知。例如持續(xù)監(jiān)聽環(huán)境變化并在“公交車到站”“信號燈變化”等事件發(fā)生時給出提醒,面壁智能通過盲人引導展現(xiàn)了該功能的應用場景。
面壁智能多模態(tài)首席科學家姚遠告訴界面新聞記者,相較于此前通過語音活動檢測(VAD)等工程手段實現(xiàn)的雙工方案,這種技術方案更接近AI原生,由模型自身完成對時機與內容的判斷。
面壁智能提出,全模態(tài)模型是潛在的“具身大腦”。其判斷依據(jù)在于,9B級別的參數(shù)規(guī)模相對可控,更適合在機器人、車載系統(tǒng)、PC 等終端側運行。
以具身智能為例,目前行業(yè)研發(fā)重心多集中于運控系統(tǒng)和視覺-語言-動作(VLA)模型,而在理解、溝通和持續(xù)交互層面仍存在缺口。團隊認為,全模態(tài)、可持續(xù)感知的模型形態(tài)有望補足這一部分能力。
與模型一同發(fā)布的松果派,是面壁首款面向開發(fā)者的端側AI硬件產品。基于現(xiàn)有模型及智能硬件發(fā)展階段,松果派是一個教育市場的產品,而不會是最終形態(tài)。
該開發(fā)板基于NVIDIA Jetson系列模組打造,集成麥克風、攝像頭及多種接口,支持離線多模態(tài)個人知識助理、具身智能原型、編程教學等場景。
其定位AI原生(AI Native)端側開發(fā)套件的原因在于,強調通過自然語言直接驅動硬件行為,降低開發(fā)門檻;MiniCPM-V與MiniCPM-o系列模型“開箱即用”;支持模型離線運行,避免持續(xù)token成本,并借此提升數(shù)據(jù)安全性與穩(wěn)定性。
松果派預計在年中進入量產階段,價格尚未公布。面壁智能表示,定價將主要基于硬件成本,更多信息將通過官網(wǎng)與開發(fā)者社群對外披露。
對多模態(tài)模型的上限進行探索是行業(yè)共識,不過在算法架構層面,面壁智能對于技術能否快速收斂的判斷并不樂觀。
姚遠對界面新聞記者指出,目前多模態(tài)模型在理解與生成的架構底層仍然高度割裂:視覺理解多依賴連續(xù)表征,而生成任務往往基于擴散模型,兩者并非同一技術路徑。這種割裂限制了模型在理解與生成之間的泛化能力,也并不符合通用人工智能的長期設想。
行業(yè)正在探索通過自回歸等統(tǒng)一建模方式,將不同模態(tài)納入同一架構之下,以實現(xiàn)理解與生成的統(tǒng)一。但這一方向仍面臨現(xiàn)實挑戰(zhàn),尤其是在視覺與音頻等高連續(xù)模態(tài)被離散化后,信息損失在 OCR、細粒度文字等任務上尤為明顯。在算力和數(shù)據(jù)規(guī)模相同的條件下,統(tǒng)一架構目前仍難以全面超越模態(tài)特異模型的最優(yōu)性能。
在數(shù)據(jù)層面,姚遠認為多模態(tài)領域尚未進入數(shù)據(jù)耗盡階段。與文本數(shù)據(jù)不同,互聯(lián)網(wǎng)上的視頻和音頻數(shù)據(jù)規(guī)模仍在高速增長,但當前真正被有效用于訓練的比例仍然有限。問題的關鍵不在于數(shù)據(jù)總量,而在于是否具備合理的學習機制,將這些數(shù)據(jù)轉化為可泛化的能力。
盡管面對云端模型“神仙打架”,面壁智能想為端側模型趟出一條前景遠大的路,但在應用與產業(yè)層面,團隊對當前AI硬件與終端形態(tài)的判斷相對克制。
李大海表示,隨著豆包手機、千問等應用出現(xiàn),行業(yè)已經(jīng)形成共識:新一代以AI為核心的人機交互形態(tài)已經(jīng)顯現(xiàn)方向,但距離真正成熟仍有較長距離。
李大海將這一變化類比為從功能機向智能機的演進過程——方向明確,但不會一蹴而就,而是伴隨著云端模型與端側模型能力的持續(xù)提升而逐步展開。即便在當前階段,即使采用行業(yè)內最領先的云端模型,其對復雜任務的完成率仍未達到完全可用的水平。
在此背景下,李大海認為,純云端方案難以成為最終形態(tài)。一方面,復雜交互場景對實時性與穩(wěn)定性提出更高要求;另一方面,用戶隱私與數(shù)據(jù)安全也限制了云端模型在終端場景中的使用邊界。
他認為,未來更可行的路徑,是端側模型與云端模型的協(xié)同工作,在能力、體驗與隱私之間取得平衡——這是一個從軟件到硬件的全產業(yè)鏈任務,面壁智能除了將模型能力延伸至手機、汽車、智能硬件等終端領域,也正在與芯片廠商加緊合作突破相應的硬件限制。


