2月5日,圍繞“信貸多模態(tài)AI如何定標(biāo)準(zhǔn)”,奇富科技舉辦了一場聚焦產(chǎn)業(yè)與學(xué)術(shù)前沿的直播討論。直播中,奇富科技聯(lián)合復(fù)旦大學(xué)、華南理工大學(xué)研究人員近期發(fā)布的首個(gè)面向信貸場景的多模態(tài)評測基準(zhǔn)FCMBench-V1.0成為核心議題。該評測基準(zhǔn)源自真實(shí)信貸業(yè)務(wù)場景,圍繞多模態(tài)感知、推理與決策等關(guān)鍵環(huán)節(jié)設(shè)計(jì)評估任務(wù),并同步開源數(shù)據(jù)集與評測工具,試圖為金融AI建立一把可被廣泛認(rèn)可的“尺子”。
在這場對話中,來自產(chǎn)業(yè)一線與學(xué)術(shù)前沿的三位嘉賓,從不同視角指向了同一個(gè)問題:如果沒有統(tǒng)一標(biāo)準(zhǔn),金融AI很難真正落地。
作為奇富科技多模態(tài)負(fù)責(zé)人,楊葉輝博士首先從產(chǎn)業(yè)實(shí)踐談起。他用“鋤頭與土地”做比喻,形象闡釋了AI與應(yīng)用場景之間的關(guān)系:AI是工具,而金融、醫(yī)療這樣的高門檻行業(yè)則是足夠“肥沃”的土地。正因?yàn)榻鹑跇I(yè)務(wù)對隱私、安全與合規(guī)有著天然的高要求,模型能力是否真的可靠,不能只靠“自說自話”。
“評測先行,本質(zhì)上是在做一把尺子。”楊葉輝指出,當(dāng)前金融機(jī)構(gòu)在選擇模型和方案時(shí),常常陷入“不同模型分別聲稱得到了95分和98分,到底哪個(gè)好?”的困惑。沒有統(tǒng)一、公平、公開的評測體系,決策就容易失焦。FCMBench的價(jià)值,正在于把模型拉到同一條起跑線上,讓能力在真實(shí)業(yè)務(wù)條件下接受檢驗(yàn)。
為此,F(xiàn)CMBench在設(shè)計(jì)上強(qiáng)調(diào)“實(shí)戰(zhàn)性”。從合規(guī)前提下重構(gòu)數(shù)據(jù)體系,到任務(wù)層面對真實(shí)業(yè)務(wù)流程的映射,再到對光線、角度、反光等十余種真實(shí)干擾場景的模擬,評測直指金融風(fēng)控中最具挑戰(zhàn)性的推理問題。比如,職業(yè)信息與異常流水之間的矛盾識(shí)別,正是檢驗(yàn)大模型是否具備金融推理能力的關(guān)鍵一環(huán)。楊葉輝坦言,做評測基準(zhǔn)并非短期收益項(xiàng)目,但從長期看,行業(yè)共識(shí)和開源力量的形成終將反哺業(yè)務(wù)本身。
華南理工大學(xué)許言午教授則從跨行業(yè)經(jīng)驗(yàn)出發(fā),為金融AI的發(fā)展提供了另一種參照。他指出,很多人直覺上覺得AI在金融領(lǐng)域“存在感不強(qiáng)”,其實(shí)并不準(zhǔn)確。AI早已深度參與保險(xiǎn)定價(jià)、資產(chǎn)評估和量化交易,只是這些價(jià)值并不直接呈現(xiàn)在ToC產(chǎn)品中,因此“看不見”。
對比醫(yī)療AI長達(dá)十余年的研發(fā)與審批周期,許言午認(rèn)為,金融行業(yè)更短的業(yè)務(wù)迭代周期,反而為模型評測和更新提供了現(xiàn)實(shí)土壤。他將數(shù)據(jù)集的發(fā)展分為三個(gè)階段:先夯實(shí)數(shù)據(jù)質(zhì)量,再通過學(xué)術(shù)與賽事運(yùn)營形成影響力,最終獲得行業(yè)層面的官方認(rèn)可,成為類似托福、雅思那樣的“準(zhǔn)入門檻”。在他看來,F(xiàn)CMBench正處在一個(gè)極具潛力的起點(diǎn)。
從更宏觀的視角出發(fā),復(fù)旦大學(xué)陳濤教授將討論拉回到AI發(fā)展史本身。他指出,深度學(xué)習(xí)真正的分水嶺,并不只是算法突破,而是ImageNet的出現(xiàn),讓評測尺度第一次實(shí)現(xiàn)了數(shù)量級躍遷,終結(jié)了小數(shù)據(jù)集時(shí)代“各說各話”的局面。
“金融AI現(xiàn)在正處在類似的階段?!标悵龔?qiáng)調(diào),從數(shù)據(jù)規(guī)模、任務(wù)覆蓋度到評測設(shè)計(jì)的系統(tǒng)性來看,F(xiàn)CMBench已經(jīng)是目前國內(nèi)金融領(lǐng)域,乃至國際金融AI研究中規(guī)模最大、最具權(quán)威性、同時(shí)也是少有的統(tǒng)一評測基準(zhǔn)。更重要的是,它并非為某一家機(jī)構(gòu)服務(wù),而是以行業(yè)共識(shí)為目標(biāo),定義了真正有價(jià)值的問題邊界。
在陳濤看來,好的數(shù)據(jù)集本身就是對“好問題”的定義。重要的是,金融AI不能停留在通用模型的預(yù)訓(xùn)練與微調(diào)階段,而應(yīng)構(gòu)建內(nèi)生的金融思維鏈,讓模型天然理解利率、規(guī)則與風(fēng)險(xiǎn),實(shí)現(xiàn)安全可信的推理能力。這也是學(xué)界與產(chǎn)業(yè)必須協(xié)同解決的問題。
在總結(jié)環(huán)節(jié),主持人、36氪高級內(nèi)容總監(jiān)楊軒表示,奇富科技率先邁出了關(guān)鍵一步,但要讓金融AI真正走向規(guī)?;⒁?guī)范化發(fā)展,仍有賴于產(chǎn)業(yè)、學(xué)界與研究機(jī)構(gòu)的持續(xù)共建。她也在直播中向行業(yè)發(fā)出邀請,期待更多伙伴參與到數(shù)據(jù)集測試、評測與賽事中來,讓這個(gè)“金融領(lǐng)域的ImageNet”,在協(xié)同中不斷校準(zhǔn),在共識(shí)中真正成型。