四虎AV成人在线观看|免费免费特黄的欧美大片|人妻丝袜中文字幕一区三区|性爱一级二级三级|日本黄色视频在线观看免费|亚洲午夜天堂超碰大香蕉中出|国产日韩三级黄色AV一区二区三区|a片网站在线观看视频|人人AV播放日韩操在线|国产伦清品一区二区三区

正在閱讀:

應(yīng)用爆發(fā)之年:聊聊模型技術(shù)進(jìn)化與商業(yè)化

掃一掃下載界面新聞APP

應(yīng)用爆發(fā)之年:聊聊模型技術(shù)進(jìn)化與商業(yè)化

大模型在商業(yè)前線"開荒"的邏輯、成本和隱藏關(guān)卡。

文|硅谷101

兩年前《硅谷101》在播客里聊大模型的時候,大家的普遍感受還是"有意思,但不好用"——幻覺、慢、貴,總覺得離真正的生產(chǎn)力還差那么幾步。

2026年,變化比想象中來得更快。阿里云千問大模型業(yè)務(wù)總經(jīng)理徐棟告訴《硅谷101》,一個五六人的小團(tuán)隊現(xiàn)在用AI一天能生成6000條廣告視頻,成本壓到10元以下,低于市場售價20至50元——商業(yè)閉環(huán)已經(jīng)跑通了。AI漫劇也在爆發(fā),國內(nèi)短劇市場規(guī)模已經(jīng)超過電影市場,視頻生成模型正從5秒進(jìn)化到15秒,年底有望突破1分鐘。

成本端的變化更加劇烈。徐棟分享了一組數(shù)字:千問的推理成本正以每半年接近10倍的速度下降,推理速度從30-50 TPS飆升到80-100+,首包延遲從2秒降到500毫秒。他說,今天端側(cè)4B的小模型,能力已經(jīng)超過兩年前最大的閉源模型,70%以上的通用任務(wù)可以在手機(jī)和車機(jī)上本地處理。

2025年被很多人稱為"AI應(yīng)用元年"。如果說前兩年的關(guān)鍵詞是"模型能做什么",那今年所有企業(yè)都在問同一個問題——用AI,到底劃不劃算?

本期播客,《硅谷101》邀請了阿里云千問大模型業(yè)務(wù)總經(jīng)理徐棟、影石Insta360研究院總監(jiān)亓魯教授、語憶科技聯(lián)合創(chuàng)始人兼CEO呂瀛杰,一起拆解大模型在商業(yè)前線"開荒"的邏輯、成本和隱藏關(guān)卡。

以下是這次對話內(nèi)容的精選:

01 模型的技術(shù)進(jìn)步與商業(yè)化

泓君:很開心你能來做客我們的播客,因為在2025年底到2026年初,大家討論最多的一個是AI Agent,還有一個就是AI應(yīng)用,真的開始走進(jìn)大家的生活了。今天很開心請你能跟大家聊一聊大模型在商業(yè)化方向的一些趨勢。在此之前,你要不要先簡單介紹一下你在阿里的工作,以及你主要負(fù)責(zé)什么?

徐棟:阿里做大模型時間比較久了,最早的模型可以追溯到2021年左右。首先有一個在海外尤其有名的模型叫千問,英文名叫Qwen。在開源領(lǐng)域,它已經(jīng)是一個體量非常大的模型,很多北美公司也會用它作為基座模型。它代表的是我們的語言模型,我們會用它去挑戰(zhàn)AI的智慧,看看它能不能用更多工具、進(jìn)入更多生產(chǎn)環(huán)節(jié)。這是我們非常主力的一個模型。

第二個是視覺生成類的模型,叫萬相,英文名叫Wan,它可以生成圖片、視頻,也能做圖片和視頻的編輯,同時也有成為未來世界模型的范式的可能性。最近三個月我們重點(diǎn)發(fā)布了2.5的preview版和2.6版,在視頻創(chuàng)作方面收到了很多新反饋。

第三個基礎(chǔ)模型是去年云棲大會發(fā)布的Fun,一個純音頻模型,它涵蓋ASR、TTS,也包括聲音克隆。我們在這個模型上追求更擬真、支持多語言、不同方言和口音,讓它能更好地理解和表達(dá)。

我們的模型還是比較結(jié)構(gòu)化的。在這幾個基座模型基礎(chǔ)上,我們開始與很多客戶交流合作,包括制造業(yè)、實(shí)體企業(yè)、品牌商,還有很多互聯(lián)網(wǎng)公司。但最近一年,我的感受是出現(xiàn)了大量AI Native公司,它們通過模型取得了不錯的成果,在很多碎片化的市場里實(shí)現(xiàn)了非常好的ROI。

泓君:你剛剛提到了幾個大模型。你覺得過去2025年,模型技術(shù)最重要的進(jìn)化是在哪幾個方向?

徐棟:最近半年進(jìn)化特別多。以“萬相Wan”為代表的視頻生成模型,如果類比GPT-3.5到4的狀態(tài),我認(rèn)為它已經(jīng)達(dá)到了GPT-4的水平。過去視頻生成模型更多用于特效、娛樂,但現(xiàn)在它可以進(jìn)入生產(chǎn)領(lǐng)域,比如最近很火的AI漫劇,增長速度非??欤€有自動化生成廣告視頻。很多15秒的切片廣告已經(jīng)開始自動化生成,形成完整管線,可能五個人一天就能生成6000個視頻,這是一個非常明顯的趨勢。

從技術(shù)角度看,有幾個特點(diǎn)很有意思:

第一,生成時間變長了。視頻生成從過去的5秒、10秒,進(jìn)入15秒時代,未來可能到一分鐘,這樣內(nèi)容連貫性會更好。

第二,鏡頭語言更豐富。模型可以切換不同鏡頭,調(diào)整光影效果,接近專業(yè)影視級能力,用戶通過簡單提示詞就能實(shí)現(xiàn)。

第三,角色一致性保持(Carry)能力。這是受Sora2啟發(fā),在角色扮演中,保持人物、物體、背景、音色的一致性,也就是“保ID”,讓后續(xù)創(chuàng)作有更好延展空間。

簡單來說,我們希望從15秒進(jìn)一步延長生成時長,目前我們已經(jīng)做到國內(nèi)最長的視頻生成模型;讓鏡頭切換、光影變化這些原本需要專業(yè)導(dǎo)演、攝像、美術(shù)協(xié)作的能力,現(xiàn)在通過模型門檻大大降低;最后,角色扮演,保持一致的能力,我相信會成為未來所有視頻生成模型的標(biāo)配。

萬相模型生成的AI動漫 圖片來源:萬相Wan

泓君:角色扮演具體是指什么?

徐棟:舉個例子:你可以用手機(jī)自拍一段5秒鐘視頻,抬頭或轉(zhuǎn)頭,說幾句話,類似試鏡。模型輸入這段視頻后,可以對人物形象和聲音進(jìn)行“保ID”,后續(xù)創(chuàng)作中這個形象和聲音可以被復(fù)刻出來。

泓君:也就是說以后只需要真人出鏡5秒,后面的內(nèi)容可以由AI生成、模型化運(yùn)作。

徐棟:對,這意味著生成內(nèi)容的可控性更高。以前可能依賴抽卡(隨機(jī)生成),現(xiàn)在可以在輸入端提供更多參考維度,在動漫創(chuàng)作領(lǐng)域其實(shí)挺多的,以前是參考圖,現(xiàn)在開始參考視頻。

泓君:你剛剛提到,比如五個人一天可以生成6000個視頻,AI漫劇也比較火了,你覺得基于模型能力提升,你看到哪些比較好的商業(yè)化案例或應(yīng)用?

徐棟:國內(nèi)短劇市場已經(jīng)超過電影市場。在視頻宣傳方面,很明顯短劇從原來的真人拍攝或大量人工編輯,開始有一定比例轉(zhuǎn)向AI生成。最近最火的是漫劇,它從動態(tài)漫發(fā)展過來的,劇情連貫,商業(yè)化能力強(qiáng),已經(jīng)成為與AI結(jié)合的一個典型。

泓君:像短劇市場、AI生成短劇、真人IP短劇,還有批量生成AI廣告,大家最關(guān)心的問題是,用AI做的成本和用人做的成本分別是多少?廠商在考慮接入模型時看重什么?

徐棟:現(xiàn)在按品質(zhì)分為S級、A級、B級。一部短劇,如果成本合理,AI可能能做到2萬元以下,加上投流和ROI計算,有可能打正或?qū)崿F(xiàn)不錯收入。如果對精品要求更高,需要投入更多后期制作資源,成本會更高,但劇集品質(zhì)也會更好。

廣告方面,15秒視頻的AI成本可以控制在10元到15元以下,在市場上有比較好的商業(yè)空間。一般來說,一個合格的15秒廣告市場價在25元到50元之間,這樣就形成了較好的商業(yè)循環(huán)。

萬相模型生成的AI短片 圖片來源:萬相Wan

泓君:這個成本確實(shí)挺低的。阿里有淘寶電商生態(tài)的,是這些電商賣家在用AI做廣告嗎?

徐棟:這個結(jié)構(gòu)是比較復(fù)雜的?,F(xiàn)在每個流量平臺會給廣告主或代理公司一定的編輯能力,以匹配其平臺。廣告主自己也有大量素材,可能是自己做的,也可能是第三方代理公司做的。在廣告生成方面,有可能是代理公司做,也可能是代理公司分包給AI Native的創(chuàng)業(yè)公司做。這類創(chuàng)業(yè)公司越來越多,它們將萬相和千問模型結(jié)合成管線,形成剛才說的五六個人一天生成6000個廣告的能力,再交給代理公司或流量平臺的廣告組。

泓君:挺有意思的。這是視頻生成模型方面。你們還有音頻生成模型和千問模型,你覺得另外兩個模型在2025年有哪些進(jìn)步和突破?

徐棟:語言模型正在發(fā)生持續(xù)而深刻的變化,雖然我們很難再看到一個巨大的范式上的改變,我簡單說一下我們在做的事情。

第一,高質(zhì)量數(shù)據(jù)集越來越少,大家都在精耕細(xì)作,通過調(diào)整數(shù)據(jù)順序、角度,提升模型知識學(xué)習(xí)效率,使模型在一些corner case(邊緣案例)上表現(xiàn)越來越好。

第二,模型結(jié)構(gòu)會越來越稀疏,多Token預(yù)測(MTP)等技術(shù)在不同模型中實(shí)踐,速度會更快,甚至成倍提升。未來首包響應(yīng)可能從2秒縮短到500毫秒都是有可能的,TPS可能從30-50提升到80-100以上,在性能要求高的場景下表現(xiàn)就會變得非常棒。

其實(shí)大家也可以從機(jī)器吞吐角度來去理解,模型稀疏化后,推理成本也會下降,可能以一個量級下降。

此外,指令遵循能力、Agent能力(尤其是工具調(diào)用)、上下文長度等都在持續(xù)迭代。疊加coding能力提升,未來可能會出現(xiàn)大量連續(xù)運(yùn)行的Agent,它不像今天的Chatbot那樣,馬上給我個結(jié)果,而是能利用閑時計算資源做AI for science研究或生成深度報告,這背后它可能調(diào)用檢索引擎、CRM、ERP等工具。如果它會用了這么多工具,我們相信輸出質(zhì)量一定會比純文本模型更好。

泓君:你講了很多基礎(chǔ)模型在細(xì)微點(diǎn)上的提升。去年我們追蹤大模型和Agent發(fā)展趨勢時,注意到2025年是AI從模型走向應(yīng)用的關(guān)鍵一年,Agent大爆發(fā),中國應(yīng)用創(chuàng)新尤其活躍。為什么是去年這個時間點(diǎn)?是因為模型基礎(chǔ)能力提升,還是有其他關(guān)鍵點(diǎn)推動?

徐棟:第一是推理能力。2024年底OpenAI推出o1后,模型不再依賴所謂的概率,開始表現(xiàn)出邏輯偏好,這是我覺得是非常根本性的改變。

第二是模型規(guī)模變大,原本存在的挑戰(zhàn)是你訓(xùn)不動它,但通過預(yù)訓(xùn)練改進(jìn),模型變大的同時可控性也提高了,復(fù)雜指令能力越來越強(qiáng)。以前依賴確定性的workflow,但現(xiàn)在模型指令遵循和理解能力增強(qiáng),只要有準(zhǔn)確上下文,就能在泛化性和準(zhǔn)確性之間找到平衡。

第三是工具調(diào)用(Tool Use)。隨著Claude Skills、MCP等標(biāo)準(zhǔn)逐漸被大家接受,越來越多工具顯性化,今天的模型開始跳脫了輸入輸出窗口,開始進(jìn)入更多生產(chǎn)環(huán)節(jié)。這個環(huán)節(jié)可能不是一個框,而是一個標(biāo)準(zhǔn)的SaaS流程或硬件交互方式。

泓君:我注意到剛剛結(jié)束的CES展上有一個趨勢,所有產(chǎn)品都想與AI搭上關(guān)系,比如耳機(jī)、智能眼鏡、剪輯拍攝工具等。今年有很多中國客戶參展,背后也有千問大模型的影子。你能否聊聊,在AI硬件產(chǎn)品中,大模型扮演什么角色?

徐棟:模型與硬件結(jié)合不是新鮮事,早在十年前,ASR、CV模型都與硬件有關(guān),但商業(yè)價值不大。這一次,我覺得最重要的是,模型變得更擬人,可以執(zhí)行更多任務(wù)了。以前只能識別,現(xiàn)在能聽懂、看懂,給出你想要的結(jié)果。今天通過千問App,你可以通過自然語言直接訂咖啡、訂座位等。如果是眼鏡,通過自然語言完成這些任務(wù),就跟過去是很大的區(qū)別。這背后離不開語音、視覺理解和文本模型。

泓君:通過眼鏡訂咖啡已經(jīng)實(shí)現(xiàn)了嗎?

徐棟:準(zhǔn)確說,早就實(shí)現(xiàn)了。千問App通過自然語言可以點(diǎn)咖啡、完成商業(yè)閉環(huán),全部在一個基于大模型的架構(gòu)里面去完成。我剛剛試過,它會生成卡片,如果大模型操作界面和原來App一樣,可能會有挑戰(zhàn),推薦咖啡時會考慮距離、偏好、歷史選擇,因為戴眼鏡時希望AI懂我、有記憶,這樣更方便。你可以切換,點(diǎn)開就是完整菜單。

泓君:我們可以看看未來這類應(yīng)用的發(fā)展情況。今天我們主題是大模型商業(yè)化,你能否整體介紹一下阿里千問是如何商業(yè)化的?

徐棟:做大模型與做云的最大區(qū)別是,云的覆蓋是比較慢的,最早是手游,慢慢覆蓋到金融和制造業(yè)。大模型這一波的改變是全行業(yè)覆蓋,每個行業(yè)都在用,只是滲透率不同,我們從兩個方向看:

第一,模型與企業(yè)結(jié)合,提升企業(yè)生產(chǎn)力。企業(yè)內(nèi)部有很多流程和角色,大模型可以在設(shè)計、編程、研發(fā)、銷售等環(huán)節(jié)發(fā)揮作用。

第二,產(chǎn)品與大模型結(jié)合。很多互聯(lián)網(wǎng)公司和消費(fèi)電子硬件天然與用戶交互,經(jīng)過大模型改造后,交互體驗發(fā)生很大變化,產(chǎn)品定位發(fā)生根本改變,所以我們與之有深入合作,不僅限于云上合作,像一些手機(jī)和車廠有低延時和本地化需求,我們發(fā)布了Omni模型(4B參數(shù)),他們對這類端側(cè)模型很感興趣。

泓君:這是類似賣端側(cè)模型嗎?

徐棟:是。這個場景更多針對算力較強(qiáng)的手機(jī)廠商和車廠,畢竟涉及功耗、發(fā)熱等問題。經(jīng)過兩三年打磨,很多車廠和手機(jī)廠開始考慮端云結(jié)合架構(gòu)。因為需求越來越旺盛,僅靠云模型不夠,我們今天已經(jīng)進(jìn)入到一個深水區(qū)了,端云模型結(jié)合,都成為大家關(guān)心的話題了。

泓君:從消費(fèi)者視角看,未來每部手機(jī)甚至每輛車都可能具備智能化交互能力,變得很智能,它是一開始就嵌入到手機(jī)里的。

徐棟:對,智能設(shè)備是每個人的貼身入口,涉及隱私、高時效性任務(wù),所以一些硬件廠商的規(guī)劃里就會考慮這些因素。

泓君:我們把比如Omni的這個模型,放到一個手機(jī)或者是一個車?yán)?,它有一些任?wù)是在云上處理的,會接入阿里云,還是客戶自己的云?

徐棟:絕大部分企業(yè),基本上都在阿里云上面提供這樣的云服務(wù),通過MaaS服務(wù)平臺“百煉”直接與設(shè)備交互。這個平臺的核心要求就是高并發(fā)、低延時、可觀測,支持鑒權(quán)管控,是一個相對完整的平臺??梢岳斫鉃榻^大多數(shù)企業(yè)通過這個平臺連接業(yè)務(wù)。

泓君:什么場景可以直接在端側(cè)處理?什么場景移到云上?端側(cè)跟云,大概會占到一個什么樣的比例?

徐棟:這是動態(tài)變化的。現(xiàn)在端側(cè)模型效果比兩年前的百B模型還好,現(xiàn)在只要一個4B的模型可能就效果發(fā)生改變。通用類任務(wù)、基本交互任務(wù)、語音和視覺理解,七成以上可以由端側(cè)模型較好地去解決了。

泓君:客戶與阿里合作時,最關(guān)心什么問題?

徐棟:這是一個變化過程。最早關(guān)心的是效果,因為模型效果還不夠好,客戶會提很多垂直任務(wù),構(gòu)建評測集。最近半年到一年,客戶從效果轉(zhuǎn)向性能和成本。因為我們的模型體量增長了幾十倍,客戶也進(jìn)入了嚴(yán)肅的生產(chǎn)環(huán)節(jié),模型效果基本得到驗證了。

客戶關(guān)心TPS、首包延時,甚至精細(xì)化到4K輸入和10萬輸入,有分別不同的TPS跟首包的要求。

有些業(yè)務(wù)有高并發(fā)需求,比如智能外呼,半小時內(nèi)完成10萬通電話,對并發(fā)要求很高。

最后是成本,當(dāng)使用量增長幾十倍、上百倍后,成本勢必成為客戶非常關(guān)心的話題。像一開始說到的視頻生成模型,目前還比較貴,如果客戶要批量生成自動化的廣告,他對成本訴求也會進(jìn)一步提高。

泓君:聽起來客戶對行業(yè)理解已經(jīng)很深,知道什么場景用小模型,什么場景用大模型。我感覺行業(yè)商業(yè)化已經(jīng)不是起步階段,大家開始提出具體需求,對垂直細(xì)分和精細(xì)化程度有了更多的考量。

徐棟:是的,最近小模型需求特別多,重復(fù)性的任務(wù),用小模型會更有性價比。意圖理解、意圖抽取等場景,很多企業(yè)的Chatbot或Agent第一步就是對用戶的理解和判斷,這方面小模型需求也很多。中小模型的post-training(后訓(xùn)練)或fine-tuning(微調(diào))需求最近三個月開始越來越多,客戶希望基于閉源模型混合自己的數(shù)據(jù),訓(xùn)練出適合他的小模型。

泓君:成本是大家非常關(guān)注的。從阿里角度看,推理成本降了多少?

徐棟:推理成本基本上每半年下降近一個量級(十倍)。成本下降受多個因素影響:

第一,模型結(jié)構(gòu)稀疏化、混合精度、MTP等技術(shù)的應(yīng)用。

第二,芯片與模型的垂直一體化設(shè)計帶來潛在紅利。

第三,調(diào)度優(yōu)化,提高利用率。我們通過不同模型切換、時間段任務(wù)切換、夜間跑批任務(wù)等,帶來了利用率的提升。利用率非常高的話,成本就會下降。

補(bǔ)充一個具體案例吧,2025年底我們發(fā)布了Qwen3-Next,一個80B參數(shù)、3B激活的模型,稀疏比很高,相信很多開發(fā)者已經(jīng)試過了,它的推理效率、效果和速度都有很大提升。

泓君:除了模型結(jié)構(gòu)和算法,芯片設(shè)計和軟硬一體化對推理成本下降非常有幫助。谷歌TPU早期推理成本是OpenAI、Anthropic的十分之一,就是因為它是根據(jù)模型算法專門去設(shè)計的。

徐棟:所以我們看阿里巴巴的科技板塊,有云、有模型,有芯片的投入,三位一體,聽起來和谷歌有點(diǎn)接近。垂直一體化的好處很多,不僅是芯片和模型,還涉及到云,比如剛剛說的調(diào)度優(yōu)化,就是跟云相關(guān)的。

泓君:我注意到你們是全球最全面的開源大模型,當(dāng)時為什么決定開源?

徐棟:2023年8月前后,我們的7B模型得到非常大的市場反饋,基于這個模型,我們打開了全球格局。千問和萬相在海外社區(qū)活躍度很高。開源有幾個好處:

第一,增強(qiáng)人才吸引力,很多頂尖科研工作者或?qū)W生在學(xué)校就開始用千問模型,對其特性很了解。

第二,社區(qū)反饋幫助我們快速迭代,早期的時候非常明顯,社區(qū)里面包括推理框架、推理引擎,甚至端側(cè)部署等開發(fā)者圍繞生態(tài)幫我們做建設(shè),提出的數(shù)據(jù)集和失敗案例問題,對我們模型快速迭代的幫助非常多。

我們在開源這塊是投入非常大的,國內(nèi)外企業(yè)幾乎沒有開發(fā)者不知道千問,企業(yè)內(nèi)部或多或少都會用到千問的一些能力。尤其是我們開過小參數(shù)模型,如1.5B、3B以下,我們還有一個最“甜點(diǎn)”的模型是32B(單顯卡可運(yùn)行),在企業(yè)中有大量應(yīng)用。

圖片來源:Hugging Face

泓君:開源和閉源,你們怎么做商業(yè)化平衡?客戶拿到開源模型就可以免費(fèi)用,閉源模型是有商業(yè)化收入在里面的。

徐棟:首先,阿里云是一家云公司,開源對我們云業(yè)務(wù)的帶動非常明顯,形成了商業(yè)化的正循環(huán)。第二,開源模型在發(fā)布時是離線版本,我們會在API版本(閉源)會進(jìn)行修正和能力提升。很多開源生態(tài)用戶也希望使用更簡單易用、并發(fā)更高的MaaS服務(wù)。另外,開源模型考慮開發(fā)者易用性,參數(shù)不會太大。我們最大的模型千問3 Max沒有開源,因為部署成本很高,有需求的客戶會選擇千問3 Max。

泓君:2025年春節(jié)前后,DeepSeek發(fā)布開源模型,讓中美眼前一亮。你覺得他們的發(fā)布對阿里有沖擊嗎?包括商業(yè)化方面。

徐棟:市場還處于中早期階段,更多模型公司推動技術(shù)進(jìn)步是最重要的。他們的論文清晰有參考意義,對整個行業(yè)是很好的推動。開源后反而帶動了開源生態(tài)活躍,讓千問開源得到進(jìn)一步發(fā)展。千問從0.5B到235B版本跨度大,企業(yè)不同場景都可以用到,更新節(jié)奏快,基本上我們一個月發(fā)三個小版本,三個月到半年發(fā)五個左右的大版本。這是一個相互促進(jìn)的過程。

泓君:今年大家討論如何衡量應(yīng)用是否火爆,行業(yè)常用方法是看用了多少Token。你覺得未來如何評價大客戶或火爆應(yīng)用?Token量是合理的評估指標(biāo)嗎?

徐棟:我認(rèn)為階段性有參考意義,很多公司用Tokens衡量創(chuàng)業(yè)估值,但長期來看,一定會回歸到收入,不一定是Token直接帶來的收入,也可能是封裝成Agent的收入。我們內(nèi)部探討Model As Service(模型即服務(wù))和Agent As Service(智能體即服務(wù))。Tokens有一些弊端,比如最小模型和最大模型的成本、收入可能差1000倍,商業(yè)價值也會有很大不同。再比如說多模態(tài),語音模型和文本模型的Token度量衡也沒有清晰地統(tǒng)一起來。但Token依然是目前觀察業(yè)務(wù)使用量的較好指標(biāo),我們比較關(guān)注。

泓君:Model As Service(模型即服務(wù))和Agent As Service(智能體即服務(wù)),有什么區(qū)別?

徐棟:Model As Service強(qiáng)調(diào)的是模型的服務(wù)能力,比如你能不能時刻推出最新的模型、你的API應(yīng)用性是否足夠高,包括實(shí)時API、跑批任務(wù)等,這些都是它衍生出的很多產(chǎn)品的用法。

Agent As Service可能按場景或行業(yè)劃分,它可能用到多個模型,最后封裝出標(biāo)準(zhǔn)的任務(wù)結(jié)果給客戶使用,比如Deep Research就是一種智能體即服務(wù)能力。

泓君:你覺得現(xiàn)在大家在大模型研發(fā)上的投入還多嗎?我指的是基礎(chǔ)大模型最前沿的、性能最高的、再把模型推向極限的模型研發(fā)。我的感受是,現(xiàn)在大家也關(guān)注模型進(jìn)化,但討論熱度不如商業(yè)化高。

徐棟:這可能是一個小的反共識,或誤區(qū)。從模型角度看,我覺得模型研發(fā)投入反而變大了。市場上每家公司、實(shí)驗室都說自己缺算力,這意味著他們的工作結(jié)果可以被定量衡量的,這是一個高度競爭的過程。只是它可能不像過去那么顯性,比如突然推出o1模型,它具有推理能力了,或者突然有了Nano Banana,它可以做編輯了?,F(xiàn)在模型進(jìn)入精耕細(xì)作階段,可能沒有太多極端的范式上的改變,但是有大量工程細(xì)節(jié)需要推敲。所以為什么成本在以量級下降?就是因為可以做的工作太多了,比如數(shù)據(jù)清洗、評價標(biāo)準(zhǔn)等,過去用規(guī)則,現(xiàn)在可以用模型,有大量細(xì)節(jié)工作可以做。

圖片生成質(zhì)量在4個月里的進(jìn)化 圖片來源:千問Qwen

泓君:現(xiàn)在模型研發(fā)主要表現(xiàn)在哪些方向?剛才我們講到了多模態(tài)是大家關(guān)注的重點(diǎn),去年Agent大爆發(fā),比如在Coding Agent方面,Anthropic和硅谷幾家大的模型廠商在代碼提升方向放了更多數(shù)據(jù)配比和優(yōu)化。你覺得未來行業(yè)趨勢中,大家的模型研發(fā)在拼哪些方向?

徐棟:籠統(tǒng)講是Agentic能力。Agent或者Agentic這個詞,每個人定義都不一樣。從結(jié)果表現(xiàn)看,我期待的是一個模型能連續(xù)運(yùn)行兩個星期,并拿到好結(jié)果。在這個過程中,它需要與環(huán)境不斷交互,它需要自己做思考判斷和假設(shè)。這樣的模型結(jié)果一定會是非常棒的。回到一開始講到的語言模型的投入方向:工具調(diào)用能力、上下文能力、復(fù)雜指令遵循能力、推理能力。這些能力不斷提升,組合起來會帶來實(shí)際業(yè)務(wù)落地的很大改變。

泓君:所以主要是精耕細(xì)作,而不是在模型智能上?

徐棟:對,這取決于智能的定義。如果智能可以打分,這些精耕細(xì)作都是讓智能分?jǐn)?shù)越來越高。

02 從全景理解到自動剪輯

泓君:亓教授先來講一下,你們Insta360的產(chǎn)品是怎么樣跟AI結(jié)合的?

亓魯:我們是一家影像公司,使命是讓用戶更好地記錄和分享生活。所以與阿里的合作中,比較典型的是云端自動剪輯。我們希望用戶拍了一天或一整年的素材,能夠智能地剪輯成一條拿得出手或愿意分享的視頻,這對我們公司的戰(zhàn)略非常關(guān)鍵。

泓君:影石是我非常喜歡的公司,亓教授您可不可以詳細(xì)講一講,你們是怎么用到AI工具在視頻剪輯中的?

圖片來源:Insta360

亓魯:自動剪輯本身是一件特別主觀、玩法比較多的事情。難點(diǎn)不是把用戶片段拼起來,而是能命中用戶的剪輯意圖。不同人喜好不同:有的用戶在意故事延續(xù)性,希望視頻像一部小型紀(jì)錄片;有的用戶想要高光瞬間,讓影片節(jié)奏更快;還有的用戶注重氛圍和表達(dá),比如配樂情緒、鏡頭語言、轉(zhuǎn)場風(fēng)格。

所以我們與阿里的合作主要集中在兩個方面:一個是千問的多模態(tài)理解模型,另一個是萬相的視頻生成模型。前者偏感知和理解,后者偏特效生成。

泓君:假設(shè)我給AI工具輸入指令:“剪輯我所有從雪山滑下來失敗的瞬間?!彼紫纫斫庹Z義,其次要在視頻里分析哪些是失敗的瞬間。

亓魯:對。我們的多模態(tài)理解負(fù)責(zé)看懂用戶素材,理解每個片段發(fā)生了什么,進(jìn)一步做高光提取、人物與事件判斷,最后將片段以結(jié)構(gòu)化形式編排,讓素材成為有邏輯、有主線的內(nèi)容組合。

泓君:你覺得現(xiàn)在整個模型的能力,它能理解到哪一步?能剪輯到哪一步?

亓魯:現(xiàn)在多模態(tài)理解在語義層面能滿足一定需求,更大的問題是如何進(jìn)行用戶意圖識別。用戶意圖可能與素材無關(guān),更多是用戶行為或給出的指示詞。但很多時候用戶自己也不知道如何表達(dá)想剪輯成什么樣。這是一個比較大的難點(diǎn):怎么讓剪輯算法理解用戶到底想要什么。

泓君:就像用戶是不是一個好甲方,能否讓乙方清楚理解意圖。比如“失敗的瞬間”可能不夠,要說“從雪橇上飛出來的畫面”,給出更清晰客觀的定義,是這一步很難嗎?

亓魯:對。如果要求用戶給出清晰定義,那這個體驗也會很差。我們更希望用戶用模糊語句,我們就能理解。這在模型層面還比較難。

泓君:在你們用AI做影片時,推出了哪些具體功能?如何用到多模態(tài)的?可以跟大家講一講嗎?

亓魯:影石最核心的產(chǎn)品是全景相機(jī),秉承“先拍后剪”理念:拍攝時用360度全角度覆蓋記錄現(xiàn)場,剪輯時再挑選最佳視角、最合適節(jié)奏,把內(nèi)容講成故事。

全景素材與普通廣角相機(jī)不同,是360度全景圖。雖然通用大模型在預(yù)訓(xùn)練階段會用到360度素材,但在海量平面素材面前,全景數(shù)據(jù)量就顯得很少,導(dǎo)致模型對360度全景素材理解較差。

影石會分為自研和調(diào)用API兩部分。我們通過自研的全景理解模型,先對全景素材進(jìn)行高光提取,這是影石的核心技術(shù)壁壘,然后接入通用大模型進(jìn)行平面內(nèi)容編排。

泓君:哪部分自研,哪部分調(diào)用API?補(bǔ)充一句:從全景相機(jī)中提取可用素材,這個需求很硬核,因為你有一個主方向,可能三分之二素材是沒用的。

亓魯:如果是360度素材,即使場景相對單一,加上各種運(yùn)鏡玩法,也可以讓素材更為生動。我們自研的部分主要是基于全景的多模態(tài)理解模型,后面更傾向于用通用大模型幫助理解平面素材。

泓君:比如用戶拍一段三分鐘左右的360度視頻,AI把最有亮點(diǎn)的環(huán)節(jié)剪出來,大概消耗什么成本?卡在哪?成本下降的核心驅(qū)動力是什么?

亓魯:用戶剪一段這樣的素材可能需要十幾塊錢成本,還是蠻貴的。我們希望在技術(shù)上解決,包括對模型輸入做更高的信息壓縮,因為全景素材可壓縮率較高。我們更希望結(jié)合全景特性,從技術(shù)手段上把Token數(shù)量壓下來。

03 不止是降本,更是增效

泓君:接下來聊第二個案例,語憶科技如何幫助大型零售公司用AI提升業(yè)務(wù)能力。呂總,我知道雀巢、寶潔、泡泡瑪特等都是你的客戶??梢韵冉榻B一下你們主要做什么嗎?

呂瀛杰:我們是為國內(nèi)和跨境消費(fèi)品牌提供全域消費(fèi)者洞察分析的、AI ToB的一家SaaS公司。

泓君:可以分享一下你們怎么做AI,怎么與客戶合作嗎?

呂瀛杰:以前,中國消費(fèi)品電商企業(yè)主要運(yùn)營方式是通過產(chǎn)品買流量直接轉(zhuǎn)化客戶,非常依賴流量紅利。2023年后,流量紅利見頂,很多頭部企業(yè)逐漸意識到要從流量思維進(jìn)化到“流量+消費(fèi)者思維”,這就誕生了大量消費(fèi)者調(diào)研需求。

企業(yè)在電商領(lǐng)域有很多消費(fèi)者與客服溝通的數(shù)據(jù),很多客戶曾用大模型直接對原始數(shù)據(jù)進(jìn)行意圖理解和抽取,但他們自己做準(zhǔn)確率連70%都達(dá)不到。

我們想幫他們解決這個問題。我們從2021、2022年開始用GPU跑顯卡,做了一個非常垂直的、針對不同行業(yè)的消費(fèi)者意圖識別小模型??蛻粝M覀儗υ颊Z料打標(biāo),打出消費(fèi)者畫像,并且識別意圖,幫他們搭建意圖識別Agent。

這些畫像不同于傳統(tǒng)投流用的年齡、職業(yè)等,而是與產(chǎn)品興趣直接相關(guān),比如一個頭部美妝品牌,希望了解消費(fèi)者膚質(zhì)情況、使用產(chǎn)品后的反饋、是否過敏等。

泓君:這些信息怎么收集?我覺得這些信息很有用,比如我買護(hù)膚品或化妝品時,覺得選擇太復(fù)雜,研究清楚要花很久。

呂瀛杰:比如您買東西時,我們會讓客戶在接待話術(shù)中做埋點(diǎn)改造??蛻暨M(jìn)線后,客服主動說:“我是您的護(hù)膚美妝顧問,為了更好地推薦產(chǎn)品,希望了解您的膚質(zhì)情況?!边@樣改造后,消費(fèi)者提及率會高很多。

這是一個方向。在處理過程中我們發(fā)現(xiàn)幾類意圖:第一類是消費(fèi)者畫像;第二類是消費(fèi)者對產(chǎn)品、服務(wù)、物流、營銷的反饋(正面或負(fù)面);第三類是歸因,舉個例子,一個國內(nèi)頂級日化品企業(yè),原來有六個員工人工登記退貨原因,對應(yīng)責(zé)任部門,用于績效評定。我們幫他們搭建Agent歸因模型后,現(xiàn)在只有一個人復(fù)審。

泓君:你們與這些企業(yè)合作,他們用AI有好幾層動力。我們可以一個一個分析,取代客服可能是最常用的AI功能,你覺得效果好嗎?

呂瀛杰:我們不覺得是完全替代客服??头ぷ髁鞣质矍敖哟褪酆筇幚怼J矍敖哟?,客戶問產(chǎn)品問題,大模型經(jīng)過知識庫訓(xùn)練校準(zhǔn)后,回答準(zhǔn)確率可能比人還要好,非常棒。但客戶的真實(shí)咨詢場景更復(fù)雜,比如客戶問優(yōu)惠券,大模型可能直接回答金額,但客戶接著問浙江地區(qū)能否參加國補(bǔ),大模型再調(diào)取政策,如果再復(fù)雜到怎么湊單最能優(yōu)惠,這樣延展下去,AI的準(zhǔn)確率可能就不夠好。

泓君:在這些環(huán)節(jié)中,你們與基礎(chǔ)模型如何合作?以千問大模型為例,它們提供哪部分能力?

呂瀛杰:基座模型能提供消費(fèi)者問題的意圖識別。其次,普遍做法是為客戶搭建AI知識庫,通過大模型識別意圖后,進(jìn)入下一個工作流,用RAG方式獲取外掛知識庫。此外,大模型對知識庫清洗也有很大幫助,因為企業(yè)內(nèi)部知識可能不是標(biāo)準(zhǔn)化文檔,可能有詳情頁圖片、Xmind工作流等。這么多復(fù)雜的知識源,都需要大模型梳理到知識庫中。這也是基座模型能力的重要體現(xiàn)。

泓君:你們選模型時最看重什么?是基座模型能力,還是調(diào)用接口?

呂瀛杰:我們的核心是幫品牌做消費(fèi)者意圖識別理解,所以非??粗鼗P驮谶@方面的能力。我們也有一些跨境的客戶,也有一些多語言的數(shù)據(jù),我們測試過國內(nèi)外模型,發(fā)現(xiàn)阿里的千問在電商場景的消費(fèi)者意圖理解能力還是比較強(qiáng)的。

泓君:你們的位置很有意思:上游是基座模型,你們是中間層,下游連接想應(yīng)用AI的企業(yè)客戶。你覺得這些客戶用AI是為了省成本還是增銷量?是做存量還是增量市場?

呂瀛杰:這是個動態(tài)發(fā)展的過程。2023年大家探索如何用AI幫助企業(yè)時,非常關(guān)注降本。但去年市場變化很大,很多企業(yè)發(fā)現(xiàn)用AI自動化節(jié)省一些人工,雖然能打平用人成本,但也沒有帶來特別大的效益價值。2024年下半年開始,越來越多企業(yè)想用AI增效,希望AI去幫他們發(fā)現(xiàn)深度的產(chǎn)品機(jī)會、消費(fèi)者需求點(diǎn),或老產(chǎn)品的新場景。

舉個例子,一個國內(nèi)頂級家電品牌的高端產(chǎn)品線(客單價2萬以上),通過我們提供的AI消費(fèi)者畫像識別和產(chǎn)品反饋分析,針對客戶功能需求設(shè)計營銷賣點(diǎn)、主播話術(shù)、客服話術(shù)。合作一年半后,整體銷量漲幅23%,高端線產(chǎn)品客單價提高6%以上。因為我們和這一個事業(yè)部合作效果很好,2025年他們把我們推薦給整個集團(tuán),每個事業(yè)部都接入了AI識別模型和SaaS產(chǎn)品、Agent能力。

泓君:像你們這樣一端連模型、一端連客戶的中間服務(wù)層,核心競爭力是什么?是對業(yè)務(wù)的理解深度,還是技術(shù)能力?

呂瀛杰:我們兩方面都有。我們會訓(xùn)練針對不同行業(yè)意圖識別的模型,形成自己的數(shù)據(jù)飛輪??蛻艨吹降氖且鈭D識別標(biāo)簽和成品Agent,但我們會留存數(shù)據(jù)訓(xùn)練垂直模型,在意圖識別場域越來越準(zhǔn),尤其是對同類目的客戶。

更重要的是,客戶希望我們不僅是技術(shù)供應(yīng)商,還能以行業(yè)專家的身份提供行業(yè)know-how,比如頭部企業(yè)如何應(yīng)用AI產(chǎn)品,所以我們的客戶成功團(tuán)隊(CSM)也會配置不同行業(yè)的專家提供服務(wù)。

泓君:有個更未來的問題:AI在意圖識別后匹配更精準(zhǔn)商品,確實(shí)能帶來銷量提升和轉(zhuǎn)化。那么隨著越來越多行業(yè)和大品牌把AI打入工作流和銷售環(huán)節(jié),最終所有企業(yè)都用上AI后,效果會不會慢慢變?nèi)跎踔磷菲剑课覀儸F(xiàn)在是否還在紅利期?

呂瀛杰:這個問題有意思。大家都升級軍火庫后,還有什么競爭力?我認(rèn)為AI未來的價值核心還是掌握在人手里,看如何使用它。在意圖識別、方向匹配、Deep Research報告生成上,各企業(yè)可能大體一致。但最終決策者如何看待這些數(shù)據(jù)、挖掘AI處理后的洞察,非常看人的洞察能力。最后還是要人找到真正的機(jī)會點(diǎn)。

泓君:這個總結(jié)特別好。現(xiàn)在是在AI紅利期,越往后歸因,未來真正的好產(chǎn)品才最具競爭力。

呂瀛杰:對。所以好的產(chǎn)品經(jīng)理、好的伙伴永遠(yuǎn)有機(jī)會。我再提個題外話:AI對To B SaaS行業(yè)在客戶收費(fèi)意識教育上起到了非常好的效果。以前中國To B企業(yè)客戶付費(fèi)意愿和金額不高,因為他們認(rèn)為誰都可以做軟件,價值不大。但AI這波影響很大,客戶明確認(rèn)識到AI按Token計費(fèi),用了多少數(shù)據(jù)量就有相應(yīng)成本,如果不付錢,就無法提供服務(wù)。在付費(fèi)意識這塊,我們也在朝著美國To B市場同步。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

應(yīng)用爆發(fā)之年:聊聊模型技術(shù)進(jìn)化與商業(yè)化

大模型在商業(yè)前線"開荒"的邏輯、成本和隱藏關(guān)卡。

文|硅谷101

兩年前《硅谷101》在播客里聊大模型的時候,大家的普遍感受還是"有意思,但不好用"——幻覺、慢、貴,總覺得離真正的生產(chǎn)力還差那么幾步。

2026年,變化比想象中來得更快。阿里云千問大模型業(yè)務(wù)總經(jīng)理徐棟告訴《硅谷101》,一個五六人的小團(tuán)隊現(xiàn)在用AI一天能生成6000條廣告視頻,成本壓到10元以下,低于市場售價20至50元——商業(yè)閉環(huán)已經(jīng)跑通了。AI漫劇也在爆發(fā),國內(nèi)短劇市場規(guī)模已經(jīng)超過電影市場,視頻生成模型正從5秒進(jìn)化到15秒,年底有望突破1分鐘。

成本端的變化更加劇烈。徐棟分享了一組數(shù)字:千問的推理成本正以每半年接近10倍的速度下降,推理速度從30-50 TPS飆升到80-100+,首包延遲從2秒降到500毫秒。他說,今天端側(cè)4B的小模型,能力已經(jīng)超過兩年前最大的閉源模型,70%以上的通用任務(wù)可以在手機(jī)和車機(jī)上本地處理。

2025年被很多人稱為"AI應(yīng)用元年"。如果說前兩年的關(guān)鍵詞是"模型能做什么",那今年所有企業(yè)都在問同一個問題——用AI,到底劃不劃算?

本期播客,《硅谷101》邀請了阿里云千問大模型業(yè)務(wù)總經(jīng)理徐棟、影石Insta360研究院總監(jiān)亓魯教授、語憶科技聯(lián)合創(chuàng)始人兼CEO呂瀛杰,一起拆解大模型在商業(yè)前線"開荒"的邏輯、成本和隱藏關(guān)卡。

以下是這次對話內(nèi)容的精選:

01 模型的技術(shù)進(jìn)步與商業(yè)化

泓君:很開心你能來做客我們的播客,因為在2025年底到2026年初,大家討論最多的一個是AI Agent,還有一個就是AI應(yīng)用,真的開始走進(jìn)大家的生活了。今天很開心請你能跟大家聊一聊大模型在商業(yè)化方向的一些趨勢。在此之前,你要不要先簡單介紹一下你在阿里的工作,以及你主要負(fù)責(zé)什么?

徐棟:阿里做大模型時間比較久了,最早的模型可以追溯到2021年左右。首先有一個在海外尤其有名的模型叫千問,英文名叫Qwen。在開源領(lǐng)域,它已經(jīng)是一個體量非常大的模型,很多北美公司也會用它作為基座模型。它代表的是我們的語言模型,我們會用它去挑戰(zhàn)AI的智慧,看看它能不能用更多工具、進(jìn)入更多生產(chǎn)環(huán)節(jié)。這是我們非常主力的一個模型。

第二個是視覺生成類的模型,叫萬相,英文名叫Wan,它可以生成圖片、視頻,也能做圖片和視頻的編輯,同時也有成為未來世界模型的范式的可能性。最近三個月我們重點(diǎn)發(fā)布了2.5的preview版和2.6版,在視頻創(chuàng)作方面收到了很多新反饋。

第三個基礎(chǔ)模型是去年云棲大會發(fā)布的Fun,一個純音頻模型,它涵蓋ASR、TTS,也包括聲音克隆。我們在這個模型上追求更擬真、支持多語言、不同方言和口音,讓它能更好地理解和表達(dá)。

我們的模型還是比較結(jié)構(gòu)化的。在這幾個基座模型基礎(chǔ)上,我們開始與很多客戶交流合作,包括制造業(yè)、實(shí)體企業(yè)、品牌商,還有很多互聯(lián)網(wǎng)公司。但最近一年,我的感受是出現(xiàn)了大量AI Native公司,它們通過模型取得了不錯的成果,在很多碎片化的市場里實(shí)現(xiàn)了非常好的ROI。

泓君:你剛剛提到了幾個大模型。你覺得過去2025年,模型技術(shù)最重要的進(jìn)化是在哪幾個方向?

徐棟:最近半年進(jìn)化特別多。以“萬相Wan”為代表的視頻生成模型,如果類比GPT-3.5到4的狀態(tài),我認(rèn)為它已經(jīng)達(dá)到了GPT-4的水平。過去視頻生成模型更多用于特效、娛樂,但現(xiàn)在它可以進(jìn)入生產(chǎn)領(lǐng)域,比如最近很火的AI漫劇,增長速度非??欤€有自動化生成廣告視頻。很多15秒的切片廣告已經(jīng)開始自動化生成,形成完整管線,可能五個人一天就能生成6000個視頻,這是一個非常明顯的趨勢。

從技術(shù)角度看,有幾個特點(diǎn)很有意思:

第一,生成時間變長了。視頻生成從過去的5秒、10秒,進(jìn)入15秒時代,未來可能到一分鐘,這樣內(nèi)容連貫性會更好。

第二,鏡頭語言更豐富。模型可以切換不同鏡頭,調(diào)整光影效果,接近專業(yè)影視級能力,用戶通過簡單提示詞就能實(shí)現(xiàn)。

第三,角色一致性保持(Carry)能力。這是受Sora2啟發(fā),在角色扮演中,保持人物、物體、背景、音色的一致性,也就是“保ID”,讓后續(xù)創(chuàng)作有更好延展空間。

簡單來說,我們希望從15秒進(jìn)一步延長生成時長,目前我們已經(jīng)做到國內(nèi)最長的視頻生成模型;讓鏡頭切換、光影變化這些原本需要專業(yè)導(dǎo)演、攝像、美術(shù)協(xié)作的能力,現(xiàn)在通過模型門檻大大降低;最后,角色扮演,保持一致的能力,我相信會成為未來所有視頻生成模型的標(biāo)配。

萬相模型生成的AI動漫 圖片來源:萬相Wan

泓君:角色扮演具體是指什么?

徐棟:舉個例子:你可以用手機(jī)自拍一段5秒鐘視頻,抬頭或轉(zhuǎn)頭,說幾句話,類似試鏡。模型輸入這段視頻后,可以對人物形象和聲音進(jìn)行“保ID”,后續(xù)創(chuàng)作中這個形象和聲音可以被復(fù)刻出來。

泓君:也就是說以后只需要真人出鏡5秒,后面的內(nèi)容可以由AI生成、模型化運(yùn)作。

徐棟:對,這意味著生成內(nèi)容的可控性更高。以前可能依賴抽卡(隨機(jī)生成),現(xiàn)在可以在輸入端提供更多參考維度,在動漫創(chuàng)作領(lǐng)域其實(shí)挺多的,以前是參考圖,現(xiàn)在開始參考視頻。

泓君:你剛剛提到,比如五個人一天可以生成6000個視頻,AI漫劇也比較火了,你覺得基于模型能力提升,你看到哪些比較好的商業(yè)化案例或應(yīng)用?

徐棟:國內(nèi)短劇市場已經(jīng)超過電影市場。在視頻宣傳方面,很明顯短劇從原來的真人拍攝或大量人工編輯,開始有一定比例轉(zhuǎn)向AI生成。最近最火的是漫劇,它從動態(tài)漫發(fā)展過來的,劇情連貫,商業(yè)化能力強(qiáng),已經(jīng)成為與AI結(jié)合的一個典型。

泓君:像短劇市場、AI生成短劇、真人IP短劇,還有批量生成AI廣告,大家最關(guān)心的問題是,用AI做的成本和用人做的成本分別是多少?廠商在考慮接入模型時看重什么?

徐棟:現(xiàn)在按品質(zhì)分為S級、A級、B級。一部短劇,如果成本合理,AI可能能做到2萬元以下,加上投流和ROI計算,有可能打正或?qū)崿F(xiàn)不錯收入。如果對精品要求更高,需要投入更多后期制作資源,成本會更高,但劇集品質(zhì)也會更好。

廣告方面,15秒視頻的AI成本可以控制在10元到15元以下,在市場上有比較好的商業(yè)空間。一般來說,一個合格的15秒廣告市場價在25元到50元之間,這樣就形成了較好的商業(yè)循環(huán)。

萬相模型生成的AI短片 圖片來源:萬相Wan

泓君:這個成本確實(shí)挺低的。阿里有淘寶電商生態(tài)的,是這些電商賣家在用AI做廣告嗎?

徐棟:這個結(jié)構(gòu)是比較復(fù)雜的。現(xiàn)在每個流量平臺會給廣告主或代理公司一定的編輯能力,以匹配其平臺。廣告主自己也有大量素材,可能是自己做的,也可能是第三方代理公司做的。在廣告生成方面,有可能是代理公司做,也可能是代理公司分包給AI Native的創(chuàng)業(yè)公司做。這類創(chuàng)業(yè)公司越來越多,它們將萬相和千問模型結(jié)合成管線,形成剛才說的五六個人一天生成6000個廣告的能力,再交給代理公司或流量平臺的廣告組。

泓君:挺有意思的。這是視頻生成模型方面。你們還有音頻生成模型和千問模型,你覺得另外兩個模型在2025年有哪些進(jìn)步和突破?

徐棟:語言模型正在發(fā)生持續(xù)而深刻的變化,雖然我們很難再看到一個巨大的范式上的改變,我簡單說一下我們在做的事情。

第一,高質(zhì)量數(shù)據(jù)集越來越少,大家都在精耕細(xì)作,通過調(diào)整數(shù)據(jù)順序、角度,提升模型知識學(xué)習(xí)效率,使模型在一些corner case(邊緣案例)上表現(xiàn)越來越好。

第二,模型結(jié)構(gòu)會越來越稀疏,多Token預(yù)測(MTP)等技術(shù)在不同模型中實(shí)踐,速度會更快,甚至成倍提升。未來首包響應(yīng)可能從2秒縮短到500毫秒都是有可能的,TPS可能從30-50提升到80-100以上,在性能要求高的場景下表現(xiàn)就會變得非常棒。

其實(shí)大家也可以從機(jī)器吞吐角度來去理解,模型稀疏化后,推理成本也會下降,可能以一個量級下降。

此外,指令遵循能力、Agent能力(尤其是工具調(diào)用)、上下文長度等都在持續(xù)迭代。疊加coding能力提升,未來可能會出現(xiàn)大量連續(xù)運(yùn)行的Agent,它不像今天的Chatbot那樣,馬上給我個結(jié)果,而是能利用閑時計算資源做AI for science研究或生成深度報告,這背后它可能調(diào)用檢索引擎、CRM、ERP等工具。如果它會用了這么多工具,我們相信輸出質(zhì)量一定會比純文本模型更好。

泓君:你講了很多基礎(chǔ)模型在細(xì)微點(diǎn)上的提升。去年我們追蹤大模型和Agent發(fā)展趨勢時,注意到2025年是AI從模型走向應(yīng)用的關(guān)鍵一年,Agent大爆發(fā),中國應(yīng)用創(chuàng)新尤其活躍。為什么是去年這個時間點(diǎn)?是因為模型基礎(chǔ)能力提升,還是有其他關(guān)鍵點(diǎn)推動?

徐棟:第一是推理能力。2024年底OpenAI推出o1后,模型不再依賴所謂的概率,開始表現(xiàn)出邏輯偏好,這是我覺得是非常根本性的改變。

第二是模型規(guī)模變大,原本存在的挑戰(zhàn)是你訓(xùn)不動它,但通過預(yù)訓(xùn)練改進(jìn),模型變大的同時可控性也提高了,復(fù)雜指令能力越來越強(qiáng)。以前依賴確定性的workflow,但現(xiàn)在模型指令遵循和理解能力增強(qiáng),只要有準(zhǔn)確上下文,就能在泛化性和準(zhǔn)確性之間找到平衡。

第三是工具調(diào)用(Tool Use)。隨著Claude Skills、MCP等標(biāo)準(zhǔn)逐漸被大家接受,越來越多工具顯性化,今天的模型開始跳脫了輸入輸出窗口,開始進(jìn)入更多生產(chǎn)環(huán)節(jié)。這個環(huán)節(jié)可能不是一個框,而是一個標(biāo)準(zhǔn)的SaaS流程或硬件交互方式。

泓君:我注意到剛剛結(jié)束的CES展上有一個趨勢,所有產(chǎn)品都想與AI搭上關(guān)系,比如耳機(jī)、智能眼鏡、剪輯拍攝工具等。今年有很多中國客戶參展,背后也有千問大模型的影子。你能否聊聊,在AI硬件產(chǎn)品中,大模型扮演什么角色?

徐棟:模型與硬件結(jié)合不是新鮮事,早在十年前,ASR、CV模型都與硬件有關(guān),但商業(yè)價值不大。這一次,我覺得最重要的是,模型變得更擬人,可以執(zhí)行更多任務(wù)了。以前只能識別,現(xiàn)在能聽懂、看懂,給出你想要的結(jié)果。今天通過千問App,你可以通過自然語言直接訂咖啡、訂座位等。如果是眼鏡,通過自然語言完成這些任務(wù),就跟過去是很大的區(qū)別。這背后離不開語音、視覺理解和文本模型。

泓君:通過眼鏡訂咖啡已經(jīng)實(shí)現(xiàn)了嗎?

徐棟:準(zhǔn)確說,早就實(shí)現(xiàn)了。千問App通過自然語言可以點(diǎn)咖啡、完成商業(yè)閉環(huán),全部在一個基于大模型的架構(gòu)里面去完成。我剛剛試過,它會生成卡片,如果大模型操作界面和原來App一樣,可能會有挑戰(zhàn),推薦咖啡時會考慮距離、偏好、歷史選擇,因為戴眼鏡時希望AI懂我、有記憶,這樣更方便。你可以切換,點(diǎn)開就是完整菜單。

泓君:我們可以看看未來這類應(yīng)用的發(fā)展情況。今天我們主題是大模型商業(yè)化,你能否整體介紹一下阿里千問是如何商業(yè)化的?

徐棟:做大模型與做云的最大區(qū)別是,云的覆蓋是比較慢的,最早是手游,慢慢覆蓋到金融和制造業(yè)。大模型這一波的改變是全行業(yè)覆蓋,每個行業(yè)都在用,只是滲透率不同,我們從兩個方向看:

第一,模型與企業(yè)結(jié)合,提升企業(yè)生產(chǎn)力。企業(yè)內(nèi)部有很多流程和角色,大模型可以在設(shè)計、編程、研發(fā)、銷售等環(huán)節(jié)發(fā)揮作用。

第二,產(chǎn)品與大模型結(jié)合。很多互聯(lián)網(wǎng)公司和消費(fèi)電子硬件天然與用戶交互,經(jīng)過大模型改造后,交互體驗發(fā)生很大變化,產(chǎn)品定位發(fā)生根本改變,所以我們與之有深入合作,不僅限于云上合作,像一些手機(jī)和車廠有低延時和本地化需求,我們發(fā)布了Omni模型(4B參數(shù)),他們對這類端側(cè)模型很感興趣。

泓君:這是類似賣端側(cè)模型嗎?

徐棟:是。這個場景更多針對算力較強(qiáng)的手機(jī)廠商和車廠,畢竟涉及功耗、發(fā)熱等問題。經(jīng)過兩三年打磨,很多車廠和手機(jī)廠開始考慮端云結(jié)合架構(gòu)。因為需求越來越旺盛,僅靠云模型不夠,我們今天已經(jīng)進(jìn)入到一個深水區(qū)了,端云模型結(jié)合,都成為大家關(guān)心的話題了。

泓君:從消費(fèi)者視角看,未來每部手機(jī)甚至每輛車都可能具備智能化交互能力,變得很智能,它是一開始就嵌入到手機(jī)里的。

徐棟:對,智能設(shè)備是每個人的貼身入口,涉及隱私、高時效性任務(wù),所以一些硬件廠商的規(guī)劃里就會考慮這些因素。

泓君:我們把比如Omni的這個模型,放到一個手機(jī)或者是一個車?yán)铮幸恍┤蝿?wù)是在云上處理的,會接入阿里云,還是客戶自己的云?

徐棟:絕大部分企業(yè),基本上都在阿里云上面提供這樣的云服務(wù),通過MaaS服務(wù)平臺“百煉”直接與設(shè)備交互。這個平臺的核心要求就是高并發(fā)、低延時、可觀測,支持鑒權(quán)管控,是一個相對完整的平臺??梢岳斫鉃榻^大多數(shù)企業(yè)通過這個平臺連接業(yè)務(wù)。

泓君:什么場景可以直接在端側(cè)處理?什么場景移到云上?端側(cè)跟云,大概會占到一個什么樣的比例?

徐棟:這是動態(tài)變化的?,F(xiàn)在端側(cè)模型效果比兩年前的百B模型還好,現(xiàn)在只要一個4B的模型可能就效果發(fā)生改變。通用類任務(wù)、基本交互任務(wù)、語音和視覺理解,七成以上可以由端側(cè)模型較好地去解決了。

泓君:客戶與阿里合作時,最關(guān)心什么問題?

徐棟:這是一個變化過程。最早關(guān)心的是效果,因為模型效果還不夠好,客戶會提很多垂直任務(wù),構(gòu)建評測集。最近半年到一年,客戶從效果轉(zhuǎn)向性能和成本。因為我們的模型體量增長了幾十倍,客戶也進(jìn)入了嚴(yán)肅的生產(chǎn)環(huán)節(jié),模型效果基本得到驗證了。

客戶關(guān)心TPS、首包延時,甚至精細(xì)化到4K輸入和10萬輸入,有分別不同的TPS跟首包的要求。

有些業(yè)務(wù)有高并發(fā)需求,比如智能外呼,半小時內(nèi)完成10萬通電話,對并發(fā)要求很高。

最后是成本,當(dāng)使用量增長幾十倍、上百倍后,成本勢必成為客戶非常關(guān)心的話題。像一開始說到的視頻生成模型,目前還比較貴,如果客戶要批量生成自動化的廣告,他對成本訴求也會進(jìn)一步提高。

泓君:聽起來客戶對行業(yè)理解已經(jīng)很深,知道什么場景用小模型,什么場景用大模型。我感覺行業(yè)商業(yè)化已經(jīng)不是起步階段,大家開始提出具體需求,對垂直細(xì)分和精細(xì)化程度有了更多的考量。

徐棟:是的,最近小模型需求特別多,重復(fù)性的任務(wù),用小模型會更有性價比。意圖理解、意圖抽取等場景,很多企業(yè)的Chatbot或Agent第一步就是對用戶的理解和判斷,這方面小模型需求也很多。中小模型的post-training(后訓(xùn)練)或fine-tuning(微調(diào))需求最近三個月開始越來越多,客戶希望基于閉源模型混合自己的數(shù)據(jù),訓(xùn)練出適合他的小模型。

泓君:成本是大家非常關(guān)注的。從阿里角度看,推理成本降了多少?

徐棟:推理成本基本上每半年下降近一個量級(十倍)。成本下降受多個因素影響:

第一,模型結(jié)構(gòu)稀疏化、混合精度、MTP等技術(shù)的應(yīng)用。

第二,芯片與模型的垂直一體化設(shè)計帶來潛在紅利。

第三,調(diào)度優(yōu)化,提高利用率。我們通過不同模型切換、時間段任務(wù)切換、夜間跑批任務(wù)等,帶來了利用率的提升。利用率非常高的話,成本就會下降。

補(bǔ)充一個具體案例吧,2025年底我們發(fā)布了Qwen3-Next,一個80B參數(shù)、3B激活的模型,稀疏比很高,相信很多開發(fā)者已經(jīng)試過了,它的推理效率、效果和速度都有很大提升。

泓君:除了模型結(jié)構(gòu)和算法,芯片設(shè)計和軟硬一體化對推理成本下降非常有幫助。谷歌TPU早期推理成本是OpenAI、Anthropic的十分之一,就是因為它是根據(jù)模型算法專門去設(shè)計的。

徐棟:所以我們看阿里巴巴的科技板塊,有云、有模型,有芯片的投入,三位一體,聽起來和谷歌有點(diǎn)接近。垂直一體化的好處很多,不僅是芯片和模型,還涉及到云,比如剛剛說的調(diào)度優(yōu)化,就是跟云相關(guān)的。

泓君:我注意到你們是全球最全面的開源大模型,當(dāng)時為什么決定開源?

徐棟:2023年8月前后,我們的7B模型得到非常大的市場反饋,基于這個模型,我們打開了全球格局。千問和萬相在海外社區(qū)活躍度很高。開源有幾個好處:

第一,增強(qiáng)人才吸引力,很多頂尖科研工作者或?qū)W生在學(xué)校就開始用千問模型,對其特性很了解。

第二,社區(qū)反饋幫助我們快速迭代,早期的時候非常明顯,社區(qū)里面包括推理框架、推理引擎,甚至端側(cè)部署等開發(fā)者圍繞生態(tài)幫我們做建設(shè),提出的數(shù)據(jù)集和失敗案例問題,對我們模型快速迭代的幫助非常多。

我們在開源這塊是投入非常大的,國內(nèi)外企業(yè)幾乎沒有開發(fā)者不知道千問,企業(yè)內(nèi)部或多或少都會用到千問的一些能力。尤其是我們開過小參數(shù)模型,如1.5B、3B以下,我們還有一個最“甜點(diǎn)”的模型是32B(單顯卡可運(yùn)行),在企業(yè)中有大量應(yīng)用。

圖片來源:Hugging Face

泓君:開源和閉源,你們怎么做商業(yè)化平衡?客戶拿到開源模型就可以免費(fèi)用,閉源模型是有商業(yè)化收入在里面的。

徐棟:首先,阿里云是一家云公司,開源對我們云業(yè)務(wù)的帶動非常明顯,形成了商業(yè)化的正循環(huán)。第二,開源模型在發(fā)布時是離線版本,我們會在API版本(閉源)會進(jìn)行修正和能力提升。很多開源生態(tài)用戶也希望使用更簡單易用、并發(fā)更高的MaaS服務(wù)。另外,開源模型考慮開發(fā)者易用性,參數(shù)不會太大。我們最大的模型千問3 Max沒有開源,因為部署成本很高,有需求的客戶會選擇千問3 Max。

泓君:2025年春節(jié)前后,DeepSeek發(fā)布開源模型,讓中美眼前一亮。你覺得他們的發(fā)布對阿里有沖擊嗎?包括商業(yè)化方面。

徐棟:市場還處于中早期階段,更多模型公司推動技術(shù)進(jìn)步是最重要的。他們的論文清晰有參考意義,對整個行業(yè)是很好的推動。開源后反而帶動了開源生態(tài)活躍,讓千問開源得到進(jìn)一步發(fā)展。千問從0.5B到235B版本跨度大,企業(yè)不同場景都可以用到,更新節(jié)奏快,基本上我們一個月發(fā)三個小版本,三個月到半年發(fā)五個左右的大版本。這是一個相互促進(jìn)的過程。

泓君:今年大家討論如何衡量應(yīng)用是否火爆,行業(yè)常用方法是看用了多少Token。你覺得未來如何評價大客戶或火爆應(yīng)用?Token量是合理的評估指標(biāo)嗎?

徐棟:我認(rèn)為階段性有參考意義,很多公司用Tokens衡量創(chuàng)業(yè)估值,但長期來看,一定會回歸到收入,不一定是Token直接帶來的收入,也可能是封裝成Agent的收入。我們內(nèi)部探討Model As Service(模型即服務(wù))和Agent As Service(智能體即服務(wù))。Tokens有一些弊端,比如最小模型和最大模型的成本、收入可能差1000倍,商業(yè)價值也會有很大不同。再比如說多模態(tài),語音模型和文本模型的Token度量衡也沒有清晰地統(tǒng)一起來。但Token依然是目前觀察業(yè)務(wù)使用量的較好指標(biāo),我們比較關(guān)注。

泓君:Model As Service(模型即服務(wù))和Agent As Service(智能體即服務(wù)),有什么區(qū)別?

徐棟:Model As Service強(qiáng)調(diào)的是模型的服務(wù)能力,比如你能不能時刻推出最新的模型、你的API應(yīng)用性是否足夠高,包括實(shí)時API、跑批任務(wù)等,這些都是它衍生出的很多產(chǎn)品的用法。

Agent As Service可能按場景或行業(yè)劃分,它可能用到多個模型,最后封裝出標(biāo)準(zhǔn)的任務(wù)結(jié)果給客戶使用,比如Deep Research就是一種智能體即服務(wù)能力。

泓君:你覺得現(xiàn)在大家在大模型研發(fā)上的投入還多嗎?我指的是基礎(chǔ)大模型最前沿的、性能最高的、再把模型推向極限的模型研發(fā)。我的感受是,現(xiàn)在大家也關(guān)注模型進(jìn)化,但討論熱度不如商業(yè)化高。

徐棟:這可能是一個小的反共識,或誤區(qū)。從模型角度看,我覺得模型研發(fā)投入反而變大了。市場上每家公司、實(shí)驗室都說自己缺算力,這意味著他們的工作結(jié)果可以被定量衡量的,這是一個高度競爭的過程。只是它可能不像過去那么顯性,比如突然推出o1模型,它具有推理能力了,或者突然有了Nano Banana,它可以做編輯了。現(xiàn)在模型進(jìn)入精耕細(xì)作階段,可能沒有太多極端的范式上的改變,但是有大量工程細(xì)節(jié)需要推敲。所以為什么成本在以量級下降?就是因為可以做的工作太多了,比如數(shù)據(jù)清洗、評價標(biāo)準(zhǔn)等,過去用規(guī)則,現(xiàn)在可以用模型,有大量細(xì)節(jié)工作可以做。

圖片生成質(zhì)量在4個月里的進(jìn)化 圖片來源:千問Qwen

泓君:現(xiàn)在模型研發(fā)主要表現(xiàn)在哪些方向?剛才我們講到了多模態(tài)是大家關(guān)注的重點(diǎn),去年Agent大爆發(fā),比如在Coding Agent方面,Anthropic和硅谷幾家大的模型廠商在代碼提升方向放了更多數(shù)據(jù)配比和優(yōu)化。你覺得未來行業(yè)趨勢中,大家的模型研發(fā)在拼哪些方向?

徐棟:籠統(tǒng)講是Agentic能力。Agent或者Agentic這個詞,每個人定義都不一樣。從結(jié)果表現(xiàn)看,我期待的是一個模型能連續(xù)運(yùn)行兩個星期,并拿到好結(jié)果。在這個過程中,它需要與環(huán)境不斷交互,它需要自己做思考判斷和假設(shè)。這樣的模型結(jié)果一定會是非常棒的?;氐揭婚_始講到的語言模型的投入方向:工具調(diào)用能力、上下文能力、復(fù)雜指令遵循能力、推理能力。這些能力不斷提升,組合起來會帶來實(shí)際業(yè)務(wù)落地的很大改變。

泓君:所以主要是精耕細(xì)作,而不是在模型智能上?

徐棟:對,這取決于智能的定義。如果智能可以打分,這些精耕細(xì)作都是讓智能分?jǐn)?shù)越來越高。

02 從全景理解到自動剪輯

泓君:亓教授先來講一下,你們Insta360的產(chǎn)品是怎么樣跟AI結(jié)合的?

亓魯:我們是一家影像公司,使命是讓用戶更好地記錄和分享生活。所以與阿里的合作中,比較典型的是云端自動剪輯。我們希望用戶拍了一天或一整年的素材,能夠智能地剪輯成一條拿得出手或愿意分享的視頻,這對我們公司的戰(zhàn)略非常關(guān)鍵。

泓君:影石是我非常喜歡的公司,亓教授您可不可以詳細(xì)講一講,你們是怎么用到AI工具在視頻剪輯中的?

圖片來源:Insta360

亓魯:自動剪輯本身是一件特別主觀、玩法比較多的事情。難點(diǎn)不是把用戶片段拼起來,而是能命中用戶的剪輯意圖。不同人喜好不同:有的用戶在意故事延續(xù)性,希望視頻像一部小型紀(jì)錄片;有的用戶想要高光瞬間,讓影片節(jié)奏更快;還有的用戶注重氛圍和表達(dá),比如配樂情緒、鏡頭語言、轉(zhuǎn)場風(fēng)格。

所以我們與阿里的合作主要集中在兩個方面:一個是千問的多模態(tài)理解模型,另一個是萬相的視頻生成模型。前者偏感知和理解,后者偏特效生成。

泓君:假設(shè)我給AI工具輸入指令:“剪輯我所有從雪山滑下來失敗的瞬間?!彼紫纫斫庹Z義,其次要在視頻里分析哪些是失敗的瞬間。

亓魯:對。我們的多模態(tài)理解負(fù)責(zé)看懂用戶素材,理解每個片段發(fā)生了什么,進(jìn)一步做高光提取、人物與事件判斷,最后將片段以結(jié)構(gòu)化形式編排,讓素材成為有邏輯、有主線的內(nèi)容組合。

泓君:你覺得現(xiàn)在整個模型的能力,它能理解到哪一步?能剪輯到哪一步?

亓魯:現(xiàn)在多模態(tài)理解在語義層面能滿足一定需求,更大的問題是如何進(jìn)行用戶意圖識別。用戶意圖可能與素材無關(guān),更多是用戶行為或給出的指示詞。但很多時候用戶自己也不知道如何表達(dá)想剪輯成什么樣。這是一個比較大的難點(diǎn):怎么讓剪輯算法理解用戶到底想要什么。

泓君:就像用戶是不是一個好甲方,能否讓乙方清楚理解意圖。比如“失敗的瞬間”可能不夠,要說“從雪橇上飛出來的畫面”,給出更清晰客觀的定義,是這一步很難嗎?

亓魯:對。如果要求用戶給出清晰定義,那這個體驗也會很差。我們更希望用戶用模糊語句,我們就能理解。這在模型層面還比較難。

泓君:在你們用AI做影片時,推出了哪些具體功能?如何用到多模態(tài)的?可以跟大家講一講嗎?

亓魯:影石最核心的產(chǎn)品是全景相機(jī),秉承“先拍后剪”理念:拍攝時用360度全角度覆蓋記錄現(xiàn)場,剪輯時再挑選最佳視角、最合適節(jié)奏,把內(nèi)容講成故事。

全景素材與普通廣角相機(jī)不同,是360度全景圖。雖然通用大模型在預(yù)訓(xùn)練階段會用到360度素材,但在海量平面素材面前,全景數(shù)據(jù)量就顯得很少,導(dǎo)致模型對360度全景素材理解較差。

影石會分為自研和調(diào)用API兩部分。我們通過自研的全景理解模型,先對全景素材進(jìn)行高光提取,這是影石的核心技術(shù)壁壘,然后接入通用大模型進(jìn)行平面內(nèi)容編排。

泓君:哪部分自研,哪部分調(diào)用API?補(bǔ)充一句:從全景相機(jī)中提取可用素材,這個需求很硬核,因為你有一個主方向,可能三分之二素材是沒用的。

亓魯:如果是360度素材,即使場景相對單一,加上各種運(yùn)鏡玩法,也可以讓素材更為生動。我們自研的部分主要是基于全景的多模態(tài)理解模型,后面更傾向于用通用大模型幫助理解平面素材。

泓君:比如用戶拍一段三分鐘左右的360度視頻,AI把最有亮點(diǎn)的環(huán)節(jié)剪出來,大概消耗什么成本?卡在哪?成本下降的核心驅(qū)動力是什么?

亓魯:用戶剪一段這樣的素材可能需要十幾塊錢成本,還是蠻貴的。我們希望在技術(shù)上解決,包括對模型輸入做更高的信息壓縮,因為全景素材可壓縮率較高。我們更希望結(jié)合全景特性,從技術(shù)手段上把Token數(shù)量壓下來。

03 不止是降本,更是增效

泓君:接下來聊第二個案例,語憶科技如何幫助大型零售公司用AI提升業(yè)務(wù)能力。呂總,我知道雀巢、寶潔、泡泡瑪特等都是你的客戶。可以先介紹一下你們主要做什么嗎?

呂瀛杰:我們是為國內(nèi)和跨境消費(fèi)品牌提供全域消費(fèi)者洞察分析的、AI ToB的一家SaaS公司。

泓君:可以分享一下你們怎么做AI,怎么與客戶合作嗎?

呂瀛杰:以前,中國消費(fèi)品電商企業(yè)主要運(yùn)營方式是通過產(chǎn)品買流量直接轉(zhuǎn)化客戶,非常依賴流量紅利。2023年后,流量紅利見頂,很多頭部企業(yè)逐漸意識到要從流量思維進(jìn)化到“流量+消費(fèi)者思維”,這就誕生了大量消費(fèi)者調(diào)研需求。

企業(yè)在電商領(lǐng)域有很多消費(fèi)者與客服溝通的數(shù)據(jù),很多客戶曾用大模型直接對原始數(shù)據(jù)進(jìn)行意圖理解和抽取,但他們自己做準(zhǔn)確率連70%都達(dá)不到。

我們想幫他們解決這個問題。我們從2021、2022年開始用GPU跑顯卡,做了一個非常垂直的、針對不同行業(yè)的消費(fèi)者意圖識別小模型??蛻粝M覀儗υ颊Z料打標(biāo),打出消費(fèi)者畫像,并且識別意圖,幫他們搭建意圖識別Agent。

這些畫像不同于傳統(tǒng)投流用的年齡、職業(yè)等,而是與產(chǎn)品興趣直接相關(guān),比如一個頭部美妝品牌,希望了解消費(fèi)者膚質(zhì)情況、使用產(chǎn)品后的反饋、是否過敏等。

泓君:這些信息怎么收集?我覺得這些信息很有用,比如我買護(hù)膚品或化妝品時,覺得選擇太復(fù)雜,研究清楚要花很久。

呂瀛杰:比如您買東西時,我們會讓客戶在接待話術(shù)中做埋點(diǎn)改造??蛻暨M(jìn)線后,客服主動說:“我是您的護(hù)膚美妝顧問,為了更好地推薦產(chǎn)品,希望了解您的膚質(zhì)情況?!边@樣改造后,消費(fèi)者提及率會高很多。

這是一個方向。在處理過程中我們發(fā)現(xiàn)幾類意圖:第一類是消費(fèi)者畫像;第二類是消費(fèi)者對產(chǎn)品、服務(wù)、物流、營銷的反饋(正面或負(fù)面);第三類是歸因,舉個例子,一個國內(nèi)頂級日化品企業(yè),原來有六個員工人工登記退貨原因,對應(yīng)責(zé)任部門,用于績效評定。我們幫他們搭建Agent歸因模型后,現(xiàn)在只有一個人復(fù)審。

泓君:你們與這些企業(yè)合作,他們用AI有好幾層動力。我們可以一個一個分析,取代客服可能是最常用的AI功能,你覺得效果好嗎?

呂瀛杰:我們不覺得是完全替代客服。客服工作流分售前接待和售后處理。售前接待中,客戶問產(chǎn)品問題,大模型經(jīng)過知識庫訓(xùn)練校準(zhǔn)后,回答準(zhǔn)確率可能比人還要好,非常棒。但客戶的真實(shí)咨詢場景更復(fù)雜,比如客戶問優(yōu)惠券,大模型可能直接回答金額,但客戶接著問浙江地區(qū)能否參加國補(bǔ),大模型再調(diào)取政策,如果再復(fù)雜到怎么湊單最能優(yōu)惠,這樣延展下去,AI的準(zhǔn)確率可能就不夠好。

泓君:在這些環(huán)節(jié)中,你們與基礎(chǔ)模型如何合作?以千問大模型為例,它們提供哪部分能力?

呂瀛杰:基座模型能提供消費(fèi)者問題的意圖識別。其次,普遍做法是為客戶搭建AI知識庫,通過大模型識別意圖后,進(jìn)入下一個工作流,用RAG方式獲取外掛知識庫。此外,大模型對知識庫清洗也有很大幫助,因為企業(yè)內(nèi)部知識可能不是標(biāo)準(zhǔn)化文檔,可能有詳情頁圖片、Xmind工作流等。這么多復(fù)雜的知識源,都需要大模型梳理到知識庫中。這也是基座模型能力的重要體現(xiàn)。

泓君:你們選模型時最看重什么?是基座模型能力,還是調(diào)用接口?

呂瀛杰:我們的核心是幫品牌做消費(fèi)者意圖識別理解,所以非??粗鼗P驮谶@方面的能力。我們也有一些跨境的客戶,也有一些多語言的數(shù)據(jù),我們測試過國內(nèi)外模型,發(fā)現(xiàn)阿里的千問在電商場景的消費(fèi)者意圖理解能力還是比較強(qiáng)的。

泓君:你們的位置很有意思:上游是基座模型,你們是中間層,下游連接想應(yīng)用AI的企業(yè)客戶。你覺得這些客戶用AI是為了省成本還是增銷量?是做存量還是增量市場?

呂瀛杰:這是個動態(tài)發(fā)展的過程。2023年大家探索如何用AI幫助企業(yè)時,非常關(guān)注降本。但去年市場變化很大,很多企業(yè)發(fā)現(xiàn)用AI自動化節(jié)省一些人工,雖然能打平用人成本,但也沒有帶來特別大的效益價值。2024年下半年開始,越來越多企業(yè)想用AI增效,希望AI去幫他們發(fā)現(xiàn)深度的產(chǎn)品機(jī)會、消費(fèi)者需求點(diǎn),或老產(chǎn)品的新場景。

舉個例子,一個國內(nèi)頂級家電品牌的高端產(chǎn)品線(客單價2萬以上),通過我們提供的AI消費(fèi)者畫像識別和產(chǎn)品反饋分析,針對客戶功能需求設(shè)計營銷賣點(diǎn)、主播話術(shù)、客服話術(shù)。合作一年半后,整體銷量漲幅23%,高端線產(chǎn)品客單價提高6%以上。因為我們和這一個事業(yè)部合作效果很好,2025年他們把我們推薦給整個集團(tuán),每個事業(yè)部都接入了AI識別模型和SaaS產(chǎn)品、Agent能力。

泓君:像你們這樣一端連模型、一端連客戶的中間服務(wù)層,核心競爭力是什么?是對業(yè)務(wù)的理解深度,還是技術(shù)能力?

呂瀛杰:我們兩方面都有。我們會訓(xùn)練針對不同行業(yè)意圖識別的模型,形成自己的數(shù)據(jù)飛輪??蛻艨吹降氖且鈭D識別標(biāo)簽和成品Agent,但我們會留存數(shù)據(jù)訓(xùn)練垂直模型,在意圖識別場域越來越準(zhǔn),尤其是對同類目的客戶。

更重要的是,客戶希望我們不僅是技術(shù)供應(yīng)商,還能以行業(yè)專家的身份提供行業(yè)know-how,比如頭部企業(yè)如何應(yīng)用AI產(chǎn)品,所以我們的客戶成功團(tuán)隊(CSM)也會配置不同行業(yè)的專家提供服務(wù)。

泓君:有個更未來的問題:AI在意圖識別后匹配更精準(zhǔn)商品,確實(shí)能帶來銷量提升和轉(zhuǎn)化。那么隨著越來越多行業(yè)和大品牌把AI打入工作流和銷售環(huán)節(jié),最終所有企業(yè)都用上AI后,效果會不會慢慢變?nèi)跎踔磷菲剑课覀儸F(xiàn)在是否還在紅利期?

呂瀛杰:這個問題有意思。大家都升級軍火庫后,還有什么競爭力?我認(rèn)為AI未來的價值核心還是掌握在人手里,看如何使用它。在意圖識別、方向匹配、Deep Research報告生成上,各企業(yè)可能大體一致。但最終決策者如何看待這些數(shù)據(jù)、挖掘AI處理后的洞察,非??慈说亩床炷芰?。最后還是要人找到真正的機(jī)會點(diǎn)。

泓君:這個總結(jié)特別好?,F(xiàn)在是在AI紅利期,越往后歸因,未來真正的好產(chǎn)品才最具競爭力。

呂瀛杰:對。所以好的產(chǎn)品經(jīng)理、好的伙伴永遠(yuǎn)有機(jī)會。我再提個題外話:AI對To B SaaS行業(yè)在客戶收費(fèi)意識教育上起到了非常好的效果。以前中國To B企業(yè)客戶付費(fèi)意愿和金額不高,因為他們認(rèn)為誰都可以做軟件,價值不大。但AI這波影響很大,客戶明確認(rèn)識到AI按Token計費(fèi),用了多少數(shù)據(jù)量就有相應(yīng)成本,如果不付錢,就無法提供服務(wù)。在付費(fèi)意識這塊,我們也在朝著美國To B市場同步。

 
本文為轉(zhuǎn)載內(nèi)容,授權(quán)事宜請聯(lián)系原著作權(quán)人。