界面新聞記者 | 陸柯言
界面新聞編輯 | 文姝琪
AI時代,輸入法也可以被重做一遍。
1月27日,擁有6億日活用戶的搜狗輸入法宣布全面AI化。在近日更新的20.0 AI大版本中,AI語音、AI翻譯、AI打字三大模型均有升級。
打字方面,新版本在大幅擴充詞庫、提升用戶意圖和上下文理解能力的同時,還針對醫(yī)生、律師等專業(yè)人群提供AI定制化服務,例如專業(yè)詞快輸,法律詞條、用藥說明快查等。而在翻譯功能上,新版本可實現(xiàn)30多種語言輸入即譯,支持文本和語音兩種形式。
AI語音則是本次升級的核心。基于自研的AI語音大模型,新版本實現(xiàn)了語音識別流暢性、整體識別準確率和方言識別準確率的提升。此外,新版本還推出了“口語轉書面語”和易混音修改功能,針對語音輸入中常見的“他她它”、“的地得”等易混音問題提供了候選和替換方案。
語音輸入之所以被高度重視,是因為它正在變成一種主流的交互方式。騰訊搜狗輸入法大模型產品面對負責人柴寶全在接受界面新聞采訪時表示,搜狗輸入法的AI用戶規(guī)模已經破億,日均語音使用次數(shù)已經接近20億,且許多用戶都是年輕人。

語音輸入是互聯(lián)網輸入法誕生20年以來,最重要的一次交互革新。過去語音輸入更像是一種輔助工具,對同音詞、語氣詞、方言等語音辨別能力差,用戶需要頻頻停下修改。但在大語言模型誕生之后,AI具備了上下文理解能力,能夠主動推測用戶的輸入意圖,覆蓋日常使用甚至部分輕辦公場景。
海外已經不乏成熟的語音輸入產品,例如由來自新加坡的Typeless,以及硅谷創(chuàng)業(yè)團隊打造的Wispr Flow。它們的核心功能都是語音轉文字,且主要面向核心辦公人群,主打高效率的生產力場景。據介紹,Wispr Flow的輸入效率比手動打字快3到4倍,并且能夠準確識別和自動編輯,官方稱在80% 的情況下用戶無需手動修改。
而在國內,一家來自武漢的創(chuàng)業(yè)公司也推出了類似產品:閃電說。這是一款端側優(yōu)先的AI語音輸入法,能夠用本地語音模型實現(xiàn)毫秒級識別,自動理解語義,智能過濾口語化表達,做到比鍵盤快 4 倍的高效輸入,且由于數(shù)據保留在本地,能夠在更大程度上保護隱私。
互聯(lián)網大廠同樣在押注語音輸入。除了搜狗輸入法之外,微信官方推出的微信輸入法、字節(jié)跳動力推的豆包輸入法,以及大模型“六小虎”之一智譜推出的智譜AI輸入法,都將語音輸入作為自身參與輸入法競爭的核心標簽。不同于走SaaS路線的Wispr Flow,互聯(lián)網大廠的語音輸入功能更側重于日常交流,也更具生態(tài)及流量優(yōu)勢,能夠借助自有生態(tài)的深度整合來提供更加友好的跨應用聯(lián)動體驗。
作為一種互聯(lián)網基礎設施,輸入法正在被各大公司重新提起重視。背后的邏輯在于,它是幾乎所有互聯(lián)網行為的開始,通過高頻的用戶互動掌握大量用戶意圖數(shù)據,并且天生橫跨所有App。正因如此,輸入法也被認為是AI Agent的雛形。此前,騰訊就已經嘗試將輸入法和AI搜索結合起來,發(fā)現(xiàn)用戶使用頻次得到明顯上升。
不過,現(xiàn)階段的語音輸入還沒有到達最終形態(tài)。柴寶全認為,語音無疑是一種重要的輸入方式,它一定會繼續(xù)增長,但是不能因此忽略了打字的重要性。至少在硬件完全顛覆之前,打字仍然是非常重要的能力。用戶的目的是得到一個最好的輸入結果,方式可以是多變的,語音也不一定是唯一選項。
“Wispr Flow是非常OK的形態(tài)嗎?不見得。它還需要更多的時間。現(xiàn)在很多Vibe coding(AI編程)沒有鍵盤,但并不意味著Vibe coding就不需要鍵盤,可能是因為短時間內還沒有好的鍵盤。所以,輸入法的演變形態(tài),我們才剛剛看到令人興奮的開始,還遠遠沒有到只拿一個麥克風就可以搞定一切的終極形態(tài)。”柴寶全說。
但語音輸入無疑是值得嘗試的。搜狗輸入法現(xiàn)階段更多是圍繞“快”和“準”來進行優(yōu)化,例如許多用戶使用語音輸入的場景是安靜的環(huán)境,或者開車等騰不開手的時刻,因此在新版本中提高了輕聲輸入的識別準確率。
“從2011年到現(xiàn)在,可以看作語音輸入的上半場,核心是‘所聽即所得’。下半場的語音輸入更應該是一種角色轉化,端到端地實現(xiàn)用戶的表達和創(chuàng)作訴求,這會是我們努力的方向。”柴寶全說。


