界面新聞記者 | 陸柯言
界面新聞編輯 | 文姝琪
AI時代,輸入法也可以被重做一遍。
1月27日,擁有6億日活用戶的搜狗輸入法宣布全面AI化。在近日更新的20.0 AI大版本中,AI語音、AI翻譯、AI打字三大模型均有升級。
打字方面,新版本在大幅擴(kuò)充詞庫、提升用戶意圖和上下文理解能力的同時,還針對醫(yī)生、律師等專業(yè)人群提供AI定制化服務(wù),例如專業(yè)詞快輸,法律詞條、用藥說明快查等。而在翻譯功能上,新版本可實(shí)現(xiàn)30多種語言輸入即譯,支持文本和語音兩種形式。
AI語音則是本次升級的核心?;谧匝械腁I語音大模型,新版本實(shí)現(xiàn)了語音識別流暢性、整體識別準(zhǔn)確率和方言識別準(zhǔn)確率的提升。此外,新版本還推出了“口語轉(zhuǎn)書面語”和易混音修改功能,針對語音輸入中常見的“他她它”、“的地得”等易混音問題提供了候選和替換方案。
語音輸入之所以被高度重視,是因?yàn)樗谧兂梢环N主流的交互方式。騰訊搜狗輸入法大模型產(chǎn)品面對負(fù)責(zé)人柴寶全在接受界面新聞采訪時表示,搜狗輸入法的AI用戶規(guī)模已經(jīng)破億,日均語音使用次數(shù)已經(jīng)接近20億,且許多用戶都是年輕人。

語音輸入是互聯(lián)網(wǎng)輸入法誕生20年以來,最重要的一次交互革新。過去語音輸入更像是一種輔助工具,對同音詞、語氣詞、方言等語音辨別能力差,用戶需要頻頻停下修改。但在大語言模型誕生之后,AI具備了上下文理解能力,能夠主動推測用戶的輸入意圖,覆蓋日常使用甚至部分輕辦公場景。
海外已經(jīng)不乏成熟的語音輸入產(chǎn)品,例如由來自新加坡的Typeless,以及硅谷創(chuàng)業(yè)團(tuán)隊(duì)打造的Wispr Flow。它們的核心功能都是語音轉(zhuǎn)文字,且主要面向核心辦公人群,主打高效率的生產(chǎn)力場景。據(jù)介紹,Wispr Flow的輸入效率比手動打字快3到4倍,并且能夠準(zhǔn)確識別和自動編輯,官方稱在80% 的情況下用戶無需手動修改。
而在國內(nèi),一家來自武漢的創(chuàng)業(yè)公司也推出了類似產(chǎn)品:閃電說。這是一款端側(cè)優(yōu)先的AI語音輸入法,能夠用本地語音模型實(shí)現(xiàn)毫秒級識別,自動理解語義,智能過濾口語化表達(dá),做到比鍵盤快 4 倍的高效輸入,且由于數(shù)據(jù)保留在本地,能夠在更大程度上保護(hù)隱私。
互聯(lián)網(wǎng)大廠同樣在押注語音輸入。除了搜狗輸入法之外,微信官方推出的微信輸入法、字節(jié)跳動力推的豆包輸入法,以及大模型“六小虎”之一智譜推出的智譜AI輸入法,都將語音輸入作為自身參與輸入法競爭的核心標(biāo)簽。不同于走SaaS路線的Wispr Flow,互聯(lián)網(wǎng)大廠的語音輸入功能更側(cè)重于日常交流,也更具生態(tài)及流量優(yōu)勢,能夠借助自有生態(tài)的深度整合來提供更加友好的跨應(yīng)用聯(lián)動體驗(yàn)。
作為一種互聯(lián)網(wǎng)基礎(chǔ)設(shè)施,輸入法正在被各大公司重新提起重視。背后的邏輯在于,它是幾乎所有互聯(lián)網(wǎng)行為的開始,通過高頻的用戶互動掌握大量用戶意圖數(shù)據(jù),并且天生橫跨所有App。正因如此,輸入法也被認(rèn)為是AI Agent的雛形。此前,騰訊就已經(jīng)嘗試將輸入法和AI搜索結(jié)合起來,發(fā)現(xiàn)用戶使用頻次得到明顯上升。
不過,現(xiàn)階段的語音輸入還沒有到達(dá)最終形態(tài)。柴寶全認(rèn)為,語音無疑是一種重要的輸入方式,它一定會繼續(xù)增長,但是不能因此忽略了打字的重要性。至少在硬件完全顛覆之前,打字仍然是非常重要的能力。用戶的目的是得到一個最好的輸入結(jié)果,方式可以是多變的,語音也不一定是唯一選項(xiàng)。
“Wispr Flow是非常OK的形態(tài)嗎?不見得。它還需要更多的時間?,F(xiàn)在很多Vibe coding(AI編程)沒有鍵盤,但并不意味著Vibe coding就不需要鍵盤,可能是因?yàn)槎虝r間內(nèi)還沒有好的鍵盤。所以,輸入法的演變形態(tài),我們才剛剛看到令人興奮的開始,還遠(yuǎn)遠(yuǎn)沒有到只拿一個麥克風(fēng)就可以搞定一切的終極形態(tài)?!辈駥毴f。
但語音輸入無疑是值得嘗試的。搜狗輸入法現(xiàn)階段更多是圍繞“快”和“準(zhǔn)”來進(jìn)行優(yōu)化,例如許多用戶使用語音輸入的場景是安靜的環(huán)境,或者開車等騰不開手的時刻,因此在新版本中提高了輕聲輸入的識別準(zhǔn)確率。
“從2011年到現(xiàn)在,可以看作語音輸入的上半場,核心是‘所聽即所得’。下半場的語音輸入更應(yīng)該是一種角色轉(zhuǎn)化,端到端地實(shí)現(xiàn)用戶的表達(dá)和創(chuàng)作訴求,這會是我們努力的方向?!辈駥毴f。


