掃一掃下載界面新聞APP

為何強(qiáng)化學(xué)習(xí)火遍硅谷？AGI的關(guān)鍵一步

Meta收購Scale AI，背后藏著多模態(tài)焦慮。

硅谷101 ·

文｜硅谷101

RL（Reinforcement Learning 強(qiáng)化學(xué)習(xí)）曾在AlphaGo時代登頂熱搜，又在大模型浪潮中沉寂多年。如今，不管在AI Agent的技術(shù)架構(gòu)還是模型預(yù)訓(xùn)練中，使用強(qiáng)化學(xué)習(xí)的方式搭建技術(shù)架構(gòu)已經(jīng)成為硅谷的一種主流趨勢。強(qiáng)化學(xué)習(xí)的頂級人才，正成為硅谷巨頭與投資人的香餑餑。

本期《硅谷101》，主播泓君繼續(xù)對話Pokee.ai創(chuàng)始人、前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊負(fù)責(zé)人朱哲清，我們將討論：

1.模型進(jìn)化與Agent的商業(yè)化中，最新技術(shù)方向是什么；

2.Meta收購ScaleAI背后的商業(yè)邏輯

3.硅谷強(qiáng)化學(xué)習(xí)頂級人才的大本營

以下是這次對話內(nèi)容的精選：

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

泓君：我注意到這一次OpenAI的發(fā)布會里也提到了在用RL（Reinforcement Learning 強(qiáng)化學(xué)習(xí)）的底層架構(gòu)。我知道RL（強(qiáng)化學(xué)習(xí)）的架構(gòu)也是你的強(qiáng)項，你可不可以簡單介紹一下用RL的架構(gòu)好在哪？它對應(yīng)的是什么？

來源：Scribbr

朱哲清：我覺得先要簡單解釋一下的是RL的架構(gòu)有很多種，有完全以LLM（Large Language Model 語言模型）為核心的基于token（令牌）的，也有我們這種整個action（行為），即我要讓Agent（智能體）不再以language token（語言令牌）作為決策的element（元素）的強(qiáng)化學(xué)習(xí)。

這兩種決策方式?jīng)]有好壞之分，他們的用例也不太一樣。但是總體來說，為什么要用RL的framework（框架）去完成Agent訓(xùn)練是因為有目標(biāo)在。不管是Deep Research（深度研究），它可能只需要從token by token（逐個令牌）的generation（生成）方式去盡可能地搜索相關(guān)信息，然后完成一整個報告；還是說agentic system（智能體系統(tǒng)）里面，像Pokee一樣，我的工具可能就是一個tokenize（令牌化）的東西，然后我可能通過很多個工具放在一塊可以解決一個問題，它都是以目標(biāo)為驅(qū)動。跟過往的LLM訓(xùn)練很大的一個不同在于LLM本身的訓(xùn)練可以通過大量的supervised learning data（監(jiān)督學(xué)習(xí)數(shù)據(jù)）完成，即auto regressive（自回歸）的training（訓(xùn)練）方式，而agentic system很難做到。

Deep Research仍然可以用一些，但是到了tool calling（工具調(diào)用）這一部分，單一的工具調(diào)用可以通過數(shù)據(jù)來完成，但是變成工具鏈的時候就很難再完成一個自回歸的訓(xùn)練。比如我有一個任務(wù)，其對應(yīng)的是50個工具調(diào)用，然后把這個數(shù)據(jù)復(fù)議地給它去訓(xùn)練，沒有人撞見過這個數(shù)據(jù)，也不可能通過互聯(lián)網(wǎng)去得到這個數(shù)據(jù)，因為互聯(lián)網(wǎng)上也沒有人產(chǎn)生過這種數(shù)據(jù)，所以如果你非要用這樣的數(shù)據(jù)就只能靠人為標(biāo)注了。

泓君：你覺得有哪些任務(wù)用監(jiān)督學(xué)習(xí)微調(diào)的方式更加容易？有哪些任務(wù)是一定要通過這種RL（強(qiáng)化學(xué)習(xí)）的方式來做呢？這兩者之間，我想它針對的任務(wù)也是不太一樣的。

朱哲清：對，目前的共識是針對于世界上已有的很多協(xié)作數(shù)據(jù)、文本、視頻、圖片，這一系列有大量已標(biāo)注數(shù)據(jù)的任務(wù)一般通過監(jiān)督學(xué)習(xí)就可以得到很高的水平，然后再通過RLHF（Reinforcement Learning from Human Feedback 基于人類反饋的強(qiáng)化學(xué)習(xí)）的post training（后訓(xùn)練）的方式，使這個能力再上一個臺階可以更符合大多數(shù)人類preference（偏好）的效果。為什么要做這個是因為大量的監(jiān)督數(shù)據(jù)中摻雜著好壞，并不是每一個數(shù)據(jù)點(diǎn)都是人類喜歡的，那它訓(xùn)練完了以后是完全泛化到所有互聯(lián)網(wǎng)上的數(shù)據(jù)。下一步就是我能不能以人類喜好為目標(biāo)去fine-tune（精調(diào)）一下我的模型，使它更偏向于人類喜好的模式，那這是RLHF的目的。

那為什么現(xiàn)在甚至要講RL pretraining（強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練），原因是在于很多的任務(wù)是只有目標(biāo)驅(qū)動的。

泓君：有哪些公司在做RL pretraining ？

朱哲清：現(xiàn)在只有研究的組在做RL pretraining，但我們其實已經(jīng)開始做一些類似于RL pretraining的東西。但它還有些prior knowledge（先驗知識）沒法靠預(yù)訓(xùn)練得到，它基本上把中間的很多訓(xùn)練的過程給扔掉了。

以強(qiáng)化學(xué)習(xí)為核心的訓(xùn)練機(jī)制是為了解決什么問題，很多的任務(wù)是以目標(biāo)驅(qū)動的，比如寫代碼，數(shù)學(xué)、物理，金融機(jī)構(gòu)的一些東西；城市規(guī)劃，operations（執(zhí)行）、research（研究）、supply chain（供應(yīng)鏈），它都是有明確目標(biāo)的，世界機(jī)制也很完整，如果a發(fā)生了會出現(xiàn)b，在這種情況下pretraining就變得不是很有必要。第一，這種專業(yè)型的以目標(biāo)為驅(qū)動的場景，大多數(shù)都是沒有任何數(shù)據(jù)的。數(shù)學(xué)跟代碼是唯一的倆個可能有相對較多數(shù)據(jù)點(diǎn)的場景。除此以外，我剛剛說的剩下那些點(diǎn)都沒什么數(shù)據(jù)，很難在互聯(lián)網(wǎng)上得到大量的數(shù)據(jù)去完成這個訓(xùn)練。

第二，本質(zhì)上它要解決的問題是非常泛化的。而書面上已經(jīng)出現(xiàn)的數(shù)據(jù)大多數(shù)都非常聚焦在經(jīng)常會發(fā)生的代碼問題和數(shù)學(xué)問題，非常高深難測的數(shù)學(xué)問題是從來沒有出現(xiàn)過的，那它就必須要通過一個 counter factual（反事實的）形式，即我要生成一些市面上從來沒有出現(xiàn)過的代碼、數(shù)學(xué)、物理規(guī)劃等輸出。然后靠一個ground truth（真實標(biāo)簽）的validator（驗證集）來告訴我做得對不對，然后去self train（自我訓(xùn)練）。這種訓(xùn)練方式非常適合于有g(shù)round truth且能夠做出精確判斷的用例，然后去進(jìn)行優(yōu)化，這是RL（強(qiáng)化學(xué)習(xí)）最閃光的時候了。其實有很多研究在網(wǎng)上都說過現(xiàn)在最大的問題是verification（驗證），如果能找到一個好的verifier（驗證器）就可以認(rèn)為問題解決了，因為通過RL去完成這個驗證器的優(yōu)化就可以。接下來我也講一個我認(rèn)為可能有一定非共識的事情，在verifier之上，我們可能下一步最需要完成的就是怎么去提升驗證方向的模型或者驗證機(jī)制的泛化性，以及當(dāng)Agent本身輸出在偏離人們實際看到的東西，如何能夠使verifier適應(yīng)到新的輸出上使它可以完成更好的驗證。這個如果有誰能做出來，我們可能會真正踏入向super intelligence（超級人工智能）邁進(jìn)的一條路，因為可能它產(chǎn)出的知識就是人類所不擁有的。

泓君：這個如果能做出來，它是可以解決幻覺的問題嗎？

朱哲清：我覺得幻覺的問題是另外一個問題，這個東西很容易產(chǎn)生幻覺。就像我們當(dāng)年看到Alpha Zero（DeepMind 開發(fā)的一種通用強(qiáng)化學(xué)習(xí)算法）打敗人類一樣，它能夠走出的一些路子是人類正常想象不到的。甚至通過這個機(jī)制可能可以發(fā)現(xiàn)新的物理定理，發(fā)現(xiàn)人類所不擁有的知識，這可能是下一步真正邁向super intelligence的一個關(guān)鍵點(diǎn)，但是目前還沒有很好的突破。

泓君：對，你說到這個點(diǎn)讓我想起Open AI對AGI（Artificial General Intelligence，通用人工智能）的五個層次的劃分，其實也是因為Open AI在這一輪跟微軟爭奪控制權(quán)的問題上，把他們之前跟微軟簽的一份協(xié)議給曝光了。我覺得整個路徑就是在沿著你說的這個方向走，它的AGI的第一個層級就是聊天機(jī)器人，像ChatGPT的對話型AI。

第二個是推理型的AI，這也是大家在去年看到的一個方向。第三個方向就是AI agent（智能體），這個AI不僅能思考，還能替代人類去執(zhí)行多步驟的自主操作，完成一系列的任務(wù)，比如旅行訂航班、訂酒店，看起來今年也在朝著這個方向邁進(jìn)了。第四個等級的AI就是創(chuàng)新型AI，稱為innovators（創(chuàng)新者），它需要具備創(chuàng)造性思維，能夠自主地發(fā)明新的工具或者方案。比如說在藥物發(fā)現(xiàn)中它可以去發(fā)現(xiàn)一個新的分子，這個時候AI就已經(jīng)可以提出人類沒有想過的辦法，然后自己去找到創(chuàng)新型的解決方案。像你剛剛說的如果有了這個方案，AI是不是在創(chuàng)作性的問題上可以超越人的范疇，去提出一些人沒有想到的解決方式。第五個等級就是組織型或者是超人級的AI，它可以獨(dú)立承擔(dān)一個組織的全部職責(zé)，遠(yuǎn)超常人，有點(diǎn)類似于“超級AGI”。

朱哲清：不得不說的一個點(diǎn)是，他們對于AI能力的定義其實是偏產(chǎn)品能力的，而不是偏技術(shù)能力的。從某種意義上來說，第二跟三（層級）之間沒有一個巨大的跨越性。第一（層級）看你怎么定義它了？因為聊天機(jī)器人可以是非常普通的，也可能是我們現(xiàn)在看到的這些聊天機(jī)器人。然后第四跟第五（層級）之間我認(rèn)為也沒有很大的gap（差距）。主要是第三到第四（層級）之間有個巨大的gap，核心原因就是驗證能力的無法跨越。從人的角度來舉例子，因為人的學(xué)習(xí)方式跟RL（強(qiáng)化學(xué)習(xí)）很像，比如小時候?qū)W一個東西，你可能可以判斷的東西都是在你知識范圍之內(nèi)的；比如說你學(xué)會了加法，那你只能判斷“1 + 1”，“2 + 2”等于多少，你無法直接泛化到判斷“3 - 2”等于多少，這個reasoning（推理）的過程并不是一個靠內(nèi)在知識就可以完全提升的。我們現(xiàn)在所說的verifiable（可驗證的）的，比如reinforcement（強(qiáng)化）和fine-tuning（精調(diào)），都是以一個內(nèi)在驗證體系就可以完成的知識迭代。比如有一個verification（驗證）是永久固定的，你可以通過這個verification去不停地提升，或者我預(yù)置了給你一定verification knowledge（驗證知識），你可以根據(jù)這個知識不停提升。但如果一個agent可以做到20位數(shù)的加減法，但它從來沒有見過減法這個東西，就仍然沒辦法verify一個減法是對還是錯。

泓君：我覺得人也是，哈哈。假設(shè)我學(xué)的是數(shù)學(xué)，或者說我從來沒有學(xué)過生物，我的數(shù)學(xué)領(lǐng)域的知識，我不知道生物的底層邏輯的話，我也很難泛化。

朱哲清：對，所以最難的兩個地方是：

1. 如何通過一個人類給定的簡單描述，比如減法跟加法的關(guān)系是什么，就能夠（得到）從a推理到b的驗證是什么，如果可以做到這一點(diǎn)，那Agent的驗證泛化性就會上到下一個臺階。

2. 它能不能通過自我探索，基于現(xiàn)有知識的 grounding（錨定），去完成對于未來知識驗證的延伸，這個也很難。比如你已經(jīng)知道了大多數(shù)的堿和酸之間會生成二氧化碳，那你能不能對二氧化碳的性質(zhì)進(jìn)行一個簡單的了解，并且對未來可能會出現(xiàn)（針對）二氧化碳的問題做出驗證，這個也是非常難的。未來如果出現(xiàn)了類似的 Agent 產(chǎn)生的結(jié)果，能否verify 這個結(jié)果是對還是錯？這個也非常非常難。

泓君：所以我們在說到AGI的五個等級時，從第三層級代理型AI到創(chuàng)新型AI，它可能是跨越從低于人類水平到超過人類的平均水平，甚至是超過最好的人類水平的時間基點(diǎn)。

朱哲清：對。所以第三到第四（層級）之間是遠(yuǎn)超過第一二三（層級）跟第四五（層級）之間的gap（差距）的。我覺得第五層級可能還有一個很微妙的東西：agent跟agent之間會不會出現(xiàn)人之間的politics（政治）？因為如果Agent之間是decentralized（去中心化的），那么它們的objective（目標(biāo)）可能互相之間會有misalignment（不一致），在去中心化的multi-agent system (多智能體系統(tǒng)) 就有可能中出現(xiàn)politics。

泓君：你指的人與人之間的（politics），比如辦公室政治斗爭？

朱哲清：對，但是在Agent環(huán)境下會出現(xiàn)完全不一樣的（情況），因為他們的objective會互相沖突，一旦出現(xiàn)互相沖突會卡死在那，甚至有點(diǎn)像在計算機(jī)系統(tǒng)里面的那種racing condition（競態(tài)條件），直接lock（卡?。?/p>

泓君：回形針問題。

朱哲清：對，可能會出現(xiàn)類似的情況。但是第一二三（層級）跟第四（層級）之間是一個鴻溝，如果誰能解決的話會是非常非常大的一個突破。

泓君：有大公司在沿著你說的方向，用RL（強(qiáng)化學(xué)習(xí)）做pretraining（預(yù)訓(xùn)練）的路徑去解決嗎？包括做驗證機(jī)制的泛化。

朱哲清：驗證機(jī)制的泛化還沒有看到誰（在這個路徑）有非常大的突破，目前就是Human Knowledge Distillation（人類知識蒸餾）來做到驗證（能力）的提升。

強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練確實有很多人在提，但是它有一個致命弱點(diǎn)。因為RL是一個完全counter factual learning（反事實學(xué)習(xí)）的過程，一個無法避免的問題是它會不會出現(xiàn)能夠解決問題但人類看不懂的解決方案。比如我們寫一個代碼驗證能夠驗證input（輸入）和output（輸出）是什么。然后這個Agent 寫了一段代碼，它確實能運(yùn)行，但是里面所有的operator（操作者）都是你看不懂的，比如object（對象）的variable（變量）的定義都是亂碼；它的加減乘除都是用的非常復(fù)雜的，編譯語言寫出來的，然后把它再硬生生摁進(jìn)了原來的代碼里面，人類就看不懂了，但它就是能運(yùn)行。所以它的reward definition（獎勵定義）會非常重要，比如說human readability（人類可讀性）要怎么樣？但是human readability你沒有辦法用一個rule（規(guī)則）來解決，所以就變成unverifiable（不可驗證的）。

泓君：整個聽下來世界也很危險啊。我大概能理解為什么Jeffrey Hinton會那么悔恨自己去創(chuàng)造了AI的底層了，比如說當(dāng)這個AI已經(jīng)可以用人類不知道的語言寫出超越人類知識的時候，還是蠻危險的。

朱哲清：那應(yīng)該Richard S. Sutton會更悔恨一點(diǎn)，因為Jeffrey Hinton所創(chuàng)造的neural network（人工神經(jīng)網(wǎng)絡(luò)）更多的是能夠表示人類知識的，而要做到counterfactual（反事實的）的知識發(fā)現(xiàn)或者policy discovery（策略發(fā)現(xiàn)），還得靠RL（強(qiáng)化學(xué)習(xí)）。我覺得最終如果要談到監(jiān)管的信息，對reward design（獎勵機(jī)制設(shè)計）可能是需要一定的regulatory efforts（監(jiān)管治理）的。訓(xùn)練的時候給Agent是什么樣的incentive（激勵），可能會決定這個Agent訓(xùn)練出來是什么樣子。

泓君：嗯嗯。關(guān)于剛剛我們在比較強(qiáng)化學(xué)習(xí)跟SFT（Supervised Fine-Tuning監(jiān)督微調(diào)）學(xué)習(xí)的時候，我也聽到了這樣一個說法，（我在有一期節(jié)目里面講過），比如說我們用強(qiáng)化學(xué)習(xí)的效果比SFT的效果好兩倍，但是它消耗的token（令牌）數(shù)量可能在10倍之多，對于現(xiàn)在大家馬上要商業(yè)化，要應(yīng)用來說，這個性價比算不過來，你怎么看？

朱哲清：對，這個是很正常的，因為reinforcement fine-tuning（強(qiáng)化學(xué)習(xí)微調(diào)）的做法是說我只有一個reward function（獎勵函數(shù)），沒有其他信息，我要去完成那個目標(biāo)。而SFT（監(jiān)督微調(diào)）是說我已經(jīng)有標(biāo)準(zhǔn)答案了，我只是需要想辦法去靠近那個標(biāo)準(zhǔn)答案就好。無法避免的就是RL fine-tuning（強(qiáng)化學(xué)習(xí)微調(diào)）的價格會更高，但是長期以往有更復(fù)雜的任務(wù)，它就沒有辦法做SFT，因為它沒有標(biāo)準(zhǔn)答案，所以就不再是一個選擇性問題?，F(xiàn)在為什么會有選擇性問題是因為我們解決的問題還不夠復(fù)雜，到了未來問題會越來越復(fù)雜，當(dāng)它到了極度復(fù)雜的時候就沒有選擇了。

泓君：嗯對。然后你剛剛提到強(qiáng)化學(xué)習(xí)跟監(jiān)督學(xué)習(xí)微調(diào)的這些方式不太一樣的一個大點(diǎn)：強(qiáng)化學(xué)習(xí)是在你沒有標(biāo)注數(shù)據(jù)的時候也可以用的方法，但是比如說對傳統(tǒng)的方法，這個數(shù)據(jù)必須是標(biāo)注的。而且這個可能已經(jīng)慢慢的成為業(yè)界的一個共識了。

02 Meta收購ScaleAI，背后藏著多模態(tài)焦慮

泓君：那Meta 為什么還要收購Scale AI？

朱哲清：數(shù)據(jù)的重要性在現(xiàn)在是有下降的。但是有一個方向是無法避免的：數(shù)據(jù)的標(biāo)注性在 Multimodality（多模態(tài)），特別是在視頻和圖片數(shù)據(jù)上，是目前無法跳開的一件事情。因為它的verification（驗證）能力會基于，比如說我們要做基于視頻跟圖像的reinforcement fine-tuning（強(qiáng)化學(xué)習(xí)微調(diào)），它的圖像輸入的解析能力要達(dá)到很高的一個程度，而且沒有辦法靠human rule（人類規(guī)則）來完成，它必須要靠模型的解析能力去把視頻和圖片的內(nèi)容解析出來，在這個內(nèi)容之上人類才能寫rule說我怎么去驗證它，這個解析能力就變得非常的難。因為我們都知道圖片，視頻里面的很多細(xì)節(jié)是我們的模型現(xiàn)在沒有辦法很好地解析的，特別是這種Multi-model（多模態(tài)）的模型還是更多地偏向于文本的能力，所以他們可能想在多模態(tài)上面發(fā)力，而多模態(tài)以及Robotics（機(jī)器人）的標(biāo)注是目前還跳不開的一個問題，所以這可能會是Meta接下來發(fā)力的一個點(diǎn)。

泓君：所以第一步多模態(tài)上還是得有先解析或者已標(biāo)注好了的數(shù)據(jù)，把所有的數(shù)據(jù)先有一個基礎(chǔ)的訓(xùn)練以后，我們再看強(qiáng)化學(xué)習(xí)能怎么處理。

朱哲清：我現(xiàn)在看的整個路徑都是這樣。ChatGPT最早是我有大量的數(shù)據(jù)訓(xùn)練出了模型，這個基礎(chǔ)模型再做一些SFT（監(jiān)督微調(diào)）把它變成一個精煉的基礎(chǔ)模型，在這之上，最早是說我們拿一些數(shù)據(jù)訓(xùn)練一個reward model（獎勵模型），然后通過這個獎勵模型再去訓(xùn)練我的language model（語言模型），用RL（強(qiáng)化學(xué)習(xí)）去訓(xùn)練語言模型讓它變得泛化性更強(qiáng)，或者說它在未知領(lǐng)域能夠達(dá)到更好的效果?，F(xiàn)在慢慢就變成強(qiáng)化學(xué)習(xí)微調(diào)，不要獎勵模型，我就用現(xiàn)在的共識或者說LLM as judge（大語言模型評估）去訓(xùn)練模型，那這個慢慢會變成一個共識。

在多模態(tài)上面現(xiàn)在還處于第一階段，第二步就是說我現(xiàn)在有大量的數(shù)據(jù)在訓(xùn)練一個基礎(chǔ)模型，訓(xùn)練完了以后我做了一些強(qiáng)化微調(diào)，那我怎么能夠去做一個標(biāo)準(zhǔn)化的judge（判斷），verifier（驗證器），或者說一個rule based（基于規(guī)則）的verifier？這個是目前不存在的一個東西，而且非常難做。因為一個圖像本身它沒有標(biāo)準(zhǔn)答案，所以它可能會說我先通過數(shù)據(jù)來訓(xùn)練一個獎勵模型，然后使得我多模態(tài)能力變到最大。然后再說我多模態(tài)的能力已經(jīng)很強(qiáng)了，我能不能通過這個輸入輸出的能力把它變成一個驗證器？然后通過這個驗證器我再去做強(qiáng)化微調(diào)，我覺得整個周期都是這樣在轉(zhuǎn)，到目前為止。

泓君：對，你覺得Scale AI在標(biāo)注圖片跟視頻的這些數(shù)據(jù)上更像是一個技術(shù)含量很高的一個工作，還是說它其實就是我找很多工人來給這個數(shù)據(jù)打標(biāo)，只要找的人多打的標(biāo)多，它就可以成為一個數(shù)據(jù)庫很多的地方，還是說它這個中間其實要很多考驗?zāi)慵夹g(shù)的環(huán)節(jié)？

朱哲清：我覺得第一點(diǎn)最難的地方就是文字的人為打標(biāo)還稍微簡單一點(diǎn)，圖片的人為打標(biāo)就變得更難了。比如說你要生成一個產(chǎn)品圖，這個產(chǎn)品圖是好還是壞？ 100 個人估計有 100 個說法，那他怎么能夠標(biāo)化那個產(chǎn)品圖好壞？這個非常非常難，所以這里面其實有alignment（對齊）問題，這個是個技術(shù)問題，我覺得短時間內(nèi)可能很難解決，他們可能會先寫一個非常復(fù)雜的rubrics（評分標(biāo)準(zhǔn)），然后去訓(xùn)練這些人，說這些圖哪些比較好，哪些比較不好，然后 Robotics（機(jī)器人學(xué)習(xí)領(lǐng)域）就變得更難了，就是說在這個情況下，Robot干了這么一件事情，是好還是不好？人可能都看不懂這個Robot在干嘛，但Robot可能自己心里有計劃要先做這個再做那個，但是人可能完全不懂這個Robot為什么干這件事情。所以多模態(tài)，以后再加上多模態(tài)加action（執(zhí)行）這一長串下來其實需要很多數(shù)據(jù)的支持。所以我覺得數(shù)據(jù)是個中期問題，如果你說非常短期，比如說資源，人才，中期可能會在數(shù)據(jù)上面有瓶頸，長期可能還是一個optimization RL（強(qiáng)化學(xué)習(xí)優(yōu)化）的問題，所以它短中長期所需要的資源和能力都不太一樣。而Meta可能希望Scale AI能夠從某種意義上解決它自己的中期的數(shù)據(jù)問題，使得它自己多模態(tài)的能力會有比較大的提升。

泓君：它挖的這批人算是在解決長期問題嗎？

朱哲清：對。

泓君：短期是什么？是算力？

朱哲清：對，我們最早不是遇到了卡不夠，各種各樣的問題，那個問題已經(jīng)解決了，現(xiàn)在就到中期問題，中期就說我們可能已經(jīng)解決了一些在文字，代碼上面的 optimization（優(yōu)化）問題，但現(xiàn)在多模態(tài)上面是不是也能夠解決這些問題？在數(shù)據(jù)上還是有缺口的，那之前的那些數(shù)據(jù)缺口，在GPT4o之后的那一整批的iteration（迭代）里面其實已經(jīng)基本上完成了對于代碼和文字上面的這些迭代。那現(xiàn)在就到了多模態(tài)上面，等于是一模一樣的gain chart（增益圖），那它只是把這個東西橫移過來了而已。

泓君：但是也會有新的問題產(chǎn)生，比如說剛我們提到的審美、圖片、視頻的標(biāo)注。

朱哲清：對，但我覺得都是時間問題。

泓君：那你覺得你自己做Pokee AI，你搭A(yù)I Agent的底層開發(fā)哲學(xué)跟邏輯是什么？

朱哲清：最核心的邏輯是我們現(xiàn)在認(rèn)為AI Agent使用不像當(dāng)年ChatGPT剛出來的時候那么簡單，但我們希望AI Agent 的使用就跟ChatGPT一樣簡單，不只是在用戶（consumer）層面，而是對于任何的企業(yè)開發(fā)者（professional）來說，他們調(diào)用一個Agent就是對著一個簡單的API（應(yīng)用程序接口），一行 prompt（提示詞），就完成了整個Agent調(diào)用，得到的就是你最后的結(jié)果，而你不用擔(dān)心中間出現(xiàn)各種各樣的Browser（瀏覽器）的環(huán)境，這些問題都不再存在，這是我們的開發(fā)邏輯。這是為什么？我們盡可能避免了非常非常復(fù)雜的Infra（infrastructure 基礎(chǔ)設(shè)施）架構(gòu)，而是通過很多的集成把更多的能力全都壓在Agent本身的模型里面。而不是說我通過一個語言模型，然后不停地去調(diào)用市面上更多的infrastructure（基礎(chǔ)設(shè)施）去bypass（繞開）這個工具的能力，把工具的數(shù)量去壓縮。某種意義上說，你用瀏覽器就是用一個工具代替了幾千個工具，但是同時也意味著你的模型所需要的能力會更小一些，而我們的方式就是我們希望模型的能力變得最強(qiáng)，然后工具就直接把它鋪開，你就直接去想要用什么工具就好了，相當(dāng)于一個Agent可以操作整個互聯(lián)網(wǎng)和一個Agent只能看一個網(wǎng)頁的區(qū)別。

泓君：模型的能力用到最強(qiáng)還是接其他的基座大模型嗎？還是你們自己也會開發(fā)自己的模型？

朱哲清：我們會開發(fā)自己的模型，我們現(xiàn)在很多的模型調(diào)用、選擇的這些能力都是我們自己的模型在做了，未來的話可能連語言模型的部分會跟我們的模型直接結(jié)合在一塊，變成一個單一模型。那個時候就從用戶的輸入到語義理解到工具選擇、規(guī)劃，到最后的結(jié)果全都變成同一個Agent來完成，此時這個Agent會變得非常好用，因為它不再像很多市面上的Agent一樣需要有大量的在Infra之間的跳轉(zhuǎn)，而是說你只要把 prompt輸進(jìn)一個API，這個API就可以給你最終可交付的結(jié)果。

泓君：為什么要開發(fā)自己的模型？這個是所有的通用型Agent它必須具備的一個技能，還是說它也可以只接大模型？

朱哲清：如果你用瀏覽器，你用那些Sandbox（沙盒虛擬機(jī)），想讓另外一個編程Agent去完成編程的過程，然后再給結(jié)果，你可以不用自己開發(fā)大模型。原因是在于你把工具壓縮了，我去依賴于另外一個寫代碼的Agent去跳過這些工具的使用，或者說我選擇一個瀏覽器的Agent，去跳過你選擇工具的使用。這個就是通過壓縮工具的數(shù)量選擇更通用的工具來完成你的目標(biāo)，而不是說直接選擇工具。

為什么我們要去訓(xùn)練模型的原因：第一，成本很高。你從一開始去解析用戶、理解、規(guī)劃，到你選擇Sandbox，其本身價格很高，瀏覽器還有視覺的部分。第二，它速度很慢。第三它的泛化性很差。它訓(xùn)練的時候見過很多網(wǎng)頁，當(dāng)你進(jìn)入到專業(yè)場景以后，它就很難。我舉個例子，有朋友問我們要的一個feature（功能），說我能不能從 PostHog，一個分析網(wǎng)絡(luò)流量的網(wǎng)站上面，是個很復(fù)雜的網(wǎng)頁，去找到這個用戶本身的行為，然后基于用戶行為的一些指標(biāo)，去導(dǎo)入一個分析的script（腳本），然后在這個腳本里面得到幾個segmentation（用戶分群）的圖表，再放進(jìn)報告里生成一個PDF。就這么一個 Agent flow（流程），你是不可能通過瀏覽器Sandbox 來完成的，你必須要直接訪問那個工具去得到最精確的數(shù)據(jù)然后再去做分析，那這個流程就變成了我們的優(yōu)勢。類似于這種的用戶設(shè)立其實非常多，如在廣告分析，用戶分析里面，其實有很多的工具是在互聯(lián)網(wǎng)上面，但是正常的瀏覽器肯定是搞不定的，因為他們在訓(xùn)練當(dāng)中從來沒見過。所以我們能夠通過我們的foundation model（基礎(chǔ)模型）把成本降下來，把泛化性提升，把它適用的workflow（工作流）的類型有很大程度的拓展，而不只是限定于那幾個最簡單的購物，寫幻燈片，做些研究，其實有很多專業(yè)型的workflow是他們解決不了的。

泓君：所以你們搭的是一個垂直的選Agent的模型對不對？

朱哲清：選工具的模型，我們不選Agent，它不只是選單一工具，它是選一個工具序列，就是一個推理加工具選擇的一個模型。

泓君：因為我看見大家在談到AI的時候，大家其實一般有兩種派別：一種是我把越來越多的問題交給AI，然后端到端的訓(xùn)練，它主打的就是人更少地干預(yù)，讓AI去犯錯誤，去學(xué)習(xí)。那另外一種就是說我們在真實應(yīng)用中還是產(chǎn)品跟用戶體驗優(yōu)先，那這種情況下我們就要減少幻覺，方式是我們還是要拆分一些細(xì)節(jié)，讓它的工作流中能確認(rèn)的地方更加確認(rèn)，讓產(chǎn)品跟應(yīng)用能夠先用起來跟落地，你自己的產(chǎn)品哲學(xué)上更偏向于哪種？

朱哲清：我作為一個CEO，現(xiàn)在一半的我是一個產(chǎn)品人，一半的我是一個研究者。作為一個研究者我同意第一個觀點(diǎn)，因為越是通用的環(huán)境能訓(xùn)練出越強(qiáng)的模型。作為一個產(chǎn)品人，我會選擇第二種，因為用戶的體驗跟模型的能力是不成正比的，我們模型能力肯定很強(qiáng)，但是最后用戶的體驗可以是非常糟糕的。

舉個簡單例子，我們之前遇到的問題就是我們模型其實選擇工具從頭到尾都是對的。我們的工具是可以發(fā)帖到所有平臺的，以社媒運(yùn)營為例，之前我們有一段時間我發(fā)布完了以后，那個鏈接沒有給到你，有很多用戶就非常困惑的來問我這發(fā)文發(fā)到哪去了，他也不知道自己應(yīng)該跑到哪個賬戶里面去看是不是有新的視頻，新的圖片出現(xiàn)了，就導(dǎo)致能力其實都端到端打通了，但是這個用戶不知道你的產(chǎn)品在干什么。還有一個另外的例子，比如生成Google Slides（幻燈片），我們之前是給你個Google Slides鏈接你自己去看。但現(xiàn)在我們會直接把它embed（嵌入）在我們的網(wǎng)頁里面，你可以直接在Pokee 里面修改Google Slides，大家就會覺得這個是完全在我的掌控之下的一個東西，而不是說我還要跑到另外一個網(wǎng)頁里面去再改，完了回來再看你生成點(diǎn)什么東西。所以它有很多這種用戶細(xì)節(jié)在里面，跟你模型能力毫不相關(guān)。在這種情況下，作為產(chǎn)品或者作為一家創(chuàng)業(yè)公司，你必須要去打磨產(chǎn)品的細(xì)節(jié)。而模型能力是決定你的產(chǎn)品下限的，而產(chǎn)品的上限是由你的產(chǎn)品細(xì)節(jié)決定的。

03 強(qiáng)化學(xué)習(xí)正當(dāng)時，技術(shù)圈層與路徑正在重構(gòu)

泓君：對，我們剛剛好多次提到了Richard S. Sutton 教授，他是強(qiáng)化學(xué)習(xí)的奠基人之一，也是2025年的圖靈獎得主。你在斯坦福讀博，自己學(xué)的也是強(qiáng)化學(xué)習(xí)嘛。所以你跟Richard S. Sutton的淵源是什么？

朱哲清：Richard S. Sutton跟我的導(dǎo)師是鐵哥們，在他們提出RL（強(qiáng)化學(xué)習(xí)）這個概念，當(dāng)時提出temporal difference learning （時序差分學(xué)習(xí)）的時候就認(rèn)識了。當(dāng)年證明Q-learning，最基礎(chǔ)的基于時序差分的策略學(xué)習(xí)，的理論能夠被function approximation（函數(shù)逼近）完成，那篇論文是我導(dǎo)師寫的。然后我在斯坦福讀博的時候其實見過好幾次Richard S. Sutton，甚至有一次在我導(dǎo)師家里，他來開party，然后大家就在一起吃燒烤。

為什么我提到Richard S. Sutton？第一是他的這個經(jīng)歷跟很多人不太一樣，他當(dāng)年其實是罹患癌癥的，有好幾年都沒有任何工作，一度非常艱難，但是他從來沒有放棄RL這個研究方向。后來他去了University of Alberta（阿爾伯塔大學(xué)），Alberta給了他挺大的支持，但他整個人身體的狀態(tài)一直都不是很好，即便很多人都說強(qiáng)化學(xué)習(xí)是一個玄學(xué)，那時候也沒有放棄過。

第二個就是他這個人，我跟他交流過幾次，他非常講原則。他的這批學(xué)生是我們公司的視覺科學(xué)家，所以有更多的淵源在里面。我們其實有聊很多我們初創(chuàng)的想法，模型的想法，他其實有非常多的前瞻性的想法，他不會拘泥于現(xiàn)在，比如說LLM（大語言模型）的能力，或者說基礎(chǔ)模型是否會取代強(qiáng)化學(xué)習(xí)。就是因為他的堅持，所以現(xiàn)在有了RL（強(qiáng)化學(xué)習(xí)）整個行業(yè)的基礎(chǔ)，有那么大的發(fā)展。雖然現(xiàn)在市面上有很多謠言，很多人其實并不是特別懂強(qiáng)化學(xué)習(xí)，但所有人都在說我們無論如何要做強(qiáng)化學(xué)習(xí)。但真正能夠把強(qiáng)化學(xué)習(xí)優(yōu)化好的，其實整個行業(yè)也就這么幾十號人吧。然后你可以看到都集中在這些人發(fā)的 paper 和做的產(chǎn)品里面，我覺得未來還是有很大的潛力的，而且要感謝他能夠?qū)@個行業(yè)和他自己的領(lǐng)域有那么強(qiáng)的堅持，否則也沒有我們現(xiàn)在那么大的發(fā)展。泓君：嗯，然后你提到你跟Richard S. Sutton在聊天的時候，他提到了很多非常前瞻性的想法，你覺得有哪些想法是非常打動你的，讓你印象深刻的？

朱哲清：我覺得他跟我提了很多次model plasticity（模型可塑性）這個問題，模型本身你是不可以無限制對它訓(xùn)練的，你訓(xùn)練到某一個程度它就會fall apart（崩潰）。其實在強(qiáng)化學(xué)習(xí)領(lǐng)域，之前經(jīng)?？吹浇衏atastrophic forgetting（災(zāi)難性遺忘），就是說在你訓(xùn)練很久很久以后，它開始忘記所有過往的學(xué)習(xí)到的知識，然后整個模型像瘋了一樣，它所有原來的 policy（策略）都消失。

泓君：這個出現(xiàn)過嗎？

朱哲清：出現(xiàn)過，很多文章里都提到過這種事情。這是為什么你一開始模型要建的足夠大，其實就像海綿一樣，然后你往里面不停地注水，你注水注到一定程度它滿了，那你再往里面注水會發(fā)生什么？就是它會流出來一些，但流出來的不一定是注入的水，很有可能是原來已經(jīng)有的水，那如果原來已經(jīng)有的一部分水是很重要的水，就像你大腦里面不停地灌輸知識，然后到最后你過載了，把加減乘除忘了，那是不是剩下的所有的知識體系就直接崩潰？這個問題本身叫模型可塑性，就是說它的可塑性到了某種程度就直接崩潰了，然后你要怎么去解決這個問題叫 continue learning（持續(xù)學(xué)習(xí)），現(xiàn)在可能有一天人類會生成一個1TB data，那10天是10TB，那未來可能生成數(shù)據(jù)還會越來越多，那你怎么能夠用一個模型無限地去訓(xùn)練它，讓它仍然能夠?qū)ξ磥淼闹R進(jìn)行獲?。窟@是不可能的。

泓君：你覺得現(xiàn)在整個模型的訓(xùn)練，比如說到GPT 4，甚至是GPT 5，它的數(shù)據(jù)量已經(jīng)到極限了嗎？

朱哲清：還沒有，模型的規(guī)模是一個線性在增長的過程，但是我們的數(shù)據(jù)量是一個指數(shù)在往上漲的過程，到了某一個階段一定會碰壁的，沒有辦法這樣規(guī)模化下去。其實我們在Pokee訓(xùn)練的時候就已經(jīng)遇到過這個問題，因為我們訓(xùn)練的模型比較小，然后我們的工具量，數(shù)據(jù)量又很大，我們其實用小模型訓(xùn)練到某一個點(diǎn)，它就突然整個performance（表現(xiàn)）就會掉得非常厲害。所以我們必須要把模型變得更大一號然后再去訓(xùn)練，才能夠不出現(xiàn)這個災(zāi)難性遺忘的情況，它取決于你的使用場景，有些使用場景可能小模型有一定的數(shù)據(jù)量它就已經(jīng)發(fā)生了。另外一個他一直提的就是reward design（獎勵設(shè)計）的問題。在未來的世界，如果RL作為核心的模型優(yōu)化機(jī)制了，那去設(shè)計這個reward model的人，他有什么樣的標(biāo)準(zhǔn)？這個激勵本身怎么設(shè)計能夠保證他的道德標(biāo)準(zhǔn)？這是一個非常麻煩的事情，因為強(qiáng)化學(xué)習(xí)是一個sequential decision making（序列決策）的問題，它的激勵是相加的。你可以定義一個單步的激勵是合理的。當(dāng)它被加起來變成很多步以后，它就變得不是一個你可預(yù)測的東西，因為它的總體激勵如果是跟著策略（Agent policy）或者它的決策機(jī)制所改變，它的設(shè)計就可能跟你原來的想法已經(jīng)背道而馳了。然后還有一個問題，比如說你有多個激勵怎么辦？你要同時優(yōu)化四五個不同的目標(biāo)，在這種情況下你怎么能夠做到平衡這些目標(biāo)？在它們當(dāng)中找到一個每個項目都做得相對比較好的狀態(tài)，這也是個問題。他也提出過這個想法叫g(shù)eneralize value function（廣義價值函數(shù)），怎么能夠去學(xué)到一個同時優(yōu)化多個目標(biāo)的價值函數(shù)？價值函數(shù)就是在強(qiáng)化學(xué)習(xí)里面去決策我去到下一步，去到哪個狀態(tài)能夠達(dá)到更優(yōu)解的一件事情，然后它可以在一個狀態(tài)下得到多個目標(biāo)所對應(yīng)的值，這樣它可以判斷如何平衡這些對應(yīng)的目標(biāo)。

泓君：嗯，挺有意思的。你覺得你從他身上學(xué)到了什么？

朱哲清：如果你自己覺得第一性原理是對的，就不要放棄。有很多東西，中期、短期、長期所看到的結(jié)果都很不一樣。有些東西可能短期內(nèi)你可以看到很多的結(jié)果，但你會卡死在那。但有些你可能退一步，真正去專注于你認(rèn)為第一性原理是對的東西，你可能長期會得到更好的結(jié)果。

泓君：嗯，你說到現(xiàn)在對RL（強(qiáng)化學(xué)習(xí)）研究得特別深的人，是以哪些高校或者以哪些中心為原點(diǎn)的？

朱哲清：就是以O(shè)pen AI早期的這批人，Pieter Abbeel的學(xué)生，可能現(xiàn)在PI（Physical Intelligence機(jī)器人公司）里面的這批人，Sergey Levine的學(xué)生，Richard Sutton的學(xué)生基本上都在學(xué)界。除此以外，也有很多現(xiàn)在已經(jīng)分支出來的好的教授，學(xué)界偏多一些，但是學(xué)界一個問題就是大家做RL都做得太理論，寫很多Regret Bound（后悔界），寫一些新的理論之類的。產(chǎn)業(yè)的話，就是David Silver為核心的DeepMind的那批人，我導(dǎo)師也在DeepMind，可能對強(qiáng)化學(xué)習(xí)的領(lǐng)域是最了解然后做的最好的，然后Microsoft也有，比如說像John Langford其實是做強(qiáng)化學(xué)習(xí)的理論方向很先驅(qū)的人之一，但是這個核心人群并不大，基本上不管他們怎么換地方，你都看到是這幾個核心人底下的學(xué)生，或者跟他們一同工作的這些人衍生出來的。

泓君：對，你覺得倫敦會是一個RL的大本營嗎？我是想到當(dāng)年AlphaGo、AlphaZero的那段時間，是強(qiáng)化學(xué)習(xí)非?；鸬囊欢螘r間，可能也是最早的一批人在研究強(qiáng)化學(xué)習(xí)的方向的，算是一個小熱潮吧。你覺得那個時候研究強(qiáng)化學(xué)習(xí)，跟現(xiàn)在大家去研究強(qiáng)化學(xué)習(xí)，方向上會有很大的不同嗎？

朱哲清：2015-2018年是AlphaGo、AlphaZero、Mu Zero，到后面比如StarCraft游戲里面的，強(qiáng)化學(xué)習(xí)發(fā)展的一個巔峰，之后就開始沉寂了，然后所有人都說大語言模型可以解決所有事情，到現(xiàn)在突然之間強(qiáng)化學(xué)習(xí)又變火了。我自己看下來是覺得倫敦的David Silver他們這批人做的強(qiáng)化學(xué)習(xí)是有一個自己的風(fēng)格的。它有一個formal verification（形式化驗證）的方式，一定能夠知道對或錯。基于這個verification（驗證）方式去訓(xùn)練一個非常dedicated（特定的），只能解決一個問題的Agent。它沒有真的說通過一個非常通用的采取決策的action space（行動空間）去訓(xùn)練一個可以解決很多問題的，可驗證的Agent。但是現(xiàn)在倫敦其實做強(qiáng)化學(xué)習(xí)的人也不止David Silver，有很多人在做強(qiáng)化學(xué)習(xí)，我覺得大本營還是灣區(qū)，因為Open AI跟DeepMind的人都在那，大概率還是以那邊為核心。

泓君：OpenAI是不是也是2015-2017年左右是花了很多時間去研究強(qiáng)化學(xué)習(xí)的？因為我記得他們早期的研究就是有各種游戲里面的推方塊，我覺得那些好像都是強(qiáng)化學(xué)習(xí)去解決問題的。

朱哲清：對對對，最早的時候是Gym environments，他們希望能夠通過一些比較簡單的游戲證明強(qiáng)化學(xué)習(xí)的目標(biāo)導(dǎo)向的解決問題的能力，但因為這些游戲就止于游戲。2018 年為什么慢慢RL（強(qiáng)化學(xué)習(xí)）開始沉寂的核心原因就是因為大家都認(rèn)為RL就是一個游戲環(huán)境的產(chǎn)物，它沒有一個真正能夠解決實際問題的能力。但是直到現(xiàn)在我不得不承認(rèn)的一點(diǎn)就是，強(qiáng)化學(xué)習(xí)還是作為一個大語言模型之上的optimizer（優(yōu)化器），它并不是從零開始訓(xùn)練出了一個可以解決通用問題的機(jī)制的。所以RL pretraining（強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練）也是一個值得去深究的一件事情，這個事如果能做成的話意味著可以從零開始訓(xùn)練一個完全通用的強(qiáng)化學(xué)習(xí)解決方案，這個會是一個非常大的一個成果。

泓君：在我們整個的聊天過程中，我感覺你的整個思維方式，包括你的眼界還是非常非常超前的。但是當(dāng)你真正去做產(chǎn)品或者去跟投資人賣一個想法的時候，可能有的時候是越超前是越?jīng)]有共識的，你有遇到類似的困難嗎？

朱哲清：有，其實上禮拜在ICML panel的時候，其中有一個問題就是怎么跟投資人聊特別技術(shù)的初創(chuàng)項目，我個人認(rèn)為是不要嘗試去賣你的想法，除非你的想法是共識，但是一旦你的想法是超共識的話，那投你的項目也沒有任何的意義。如果要去跟投資人聊的話，利用市場的共識，但是在這共識之上加一個邏輯飛躍，比如說市場共識是強(qiáng)化學(xué)習(xí)agent是很火熱的，大家都覺得這個東西有未來，你的唯一的那個吸引人的點(diǎn)是說你怎么能夠?qū)崿F(xiàn)它？同時你實現(xiàn)它的時候你有什么優(yōu)勢？你告訴他我訓(xùn)練強(qiáng)化學(xué)習(xí)Agent的這個方式跟所有人都不一樣其實是沒有任何意義的，所有人都不會理解說你為什么跟別人不一樣，你要說的是你要解決的這個問題在你的技術(shù)基礎(chǔ)之上是很有意義的，以及你為什么有這個不公平的優(yōu)勢。

泓君：剛剛其實我們在談到你做這個AI Agent底層哲學(xué)的時候，我也把兩種不同的思維方式有丟給你。然后我們剛剛在評價幾家不同的AI Agent公司的時候，比如說GensPark、Manus、 Open AI 的ChatGPT，還有Fellou，所有的公司大家用的方法都不太一樣，你覺得未來Agent能在這中間脫穎而出的核心點(diǎn)是什么？是技術(shù)路線、產(chǎn)品、還是什么樣的決策？

朱哲清：我覺得這些公司最后都會走向不一樣的專注領(lǐng)域，像早期的，Mistral，OpenAI，Anthropic，大家后面都走了不一樣的路。最后會有一個區(qū)分化、多樣化的過程，然后大家會發(fā)現(xiàn)Agent 都越發(fā)展越不一樣，因為創(chuàng)始人也不一樣，人在這里面會自然地發(fā)展出很多不一樣的一些決定。第二，技術(shù)方向會是一個決定一家公司能否存活下去的核心，原因在于agentic system（智能體系統(tǒng)）的成本很高，雖然你融了很多錢，但是很多 AI 公司的一個核心痛點(diǎn)就是你融了錢，你的growth（增長）越快，你死得越快，因為你都是入不敷出的在做增長，然后你下一輪融資的時候給所有的投資人一看，你的毛利潤全是負(fù)的50%，第一反應(yīng)就是就算我投了你下一輪你有什么辦法把它轉(zhuǎn)正嗎？你說你沒有，那投資人也不會買賬。總體來說就變成了一個無限消耗的過程，那技術(shù)的提升會使得你可以把這個毛利潤轉(zhuǎn)正，對投資人來說，只要能增長，那就值得投。所以技術(shù)路徑是你能夠活下來的核心，但是最后的產(chǎn)品發(fā)展形態(tài)以及最后的市場的格局會是創(chuàng)始人以及這個團(tuán)隊的決策所導(dǎo)致的，而且區(qū)分度會很大。

泓君：對，講得特別好。如果你技術(shù)路徑選錯了，那可能整個AI的成本就太高了，短時間還可以靠融資維持，但是這不是一個長時間能一直維持的事情。

朱哲清：當(dāng)然很多可能都估值很高，都快上10億美金了，可能被收購的可能性不太大。但是小一點(diǎn)團(tuán)隊，現(xiàn)在相對拋得比較高的那種團(tuán)隊，被收購的概率其實都挺大的。所以這個市場可能接下來一到兩年都會是一個非常瘋狂的大魚吃小魚的過程，所以我們可以拭目以待，我覺得接下來的商業(yè)市場會是一個非常有意思的故事。

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人。

人工智能科技

為何強(qiáng)化學(xué)習(xí)火遍硅谷？AGI的關(guān)鍵一步

Meta收購Scale AI，背后藏著多模態(tài)焦慮。

硅谷101 · 2025/08/07 15:54

文｜硅谷101

本期《硅谷101》，主播泓君繼續(xù)對話Pokee.ai創(chuàng)始人、前Meta AI應(yīng)用強(qiáng)化學(xué)習(xí)團(tuán)隊負(fù)責(zé)人朱哲清，我們將討論：

1.模型進(jìn)化與Agent的商業(yè)化中，最新技術(shù)方向是什么；

2.Meta收購ScaleAI背后的商業(yè)邏輯

3.硅谷強(qiáng)化學(xué)習(xí)頂級人才的大本營

以下是這次對話內(nèi)容的精選：

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

來源：Scribbr

那為什么現(xiàn)在甚至要講RL pretraining（強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練），原因是在于很多的任務(wù)是只有目標(biāo)驅(qū)動的。

泓君：有哪些公司在做RL pretraining ？

泓君：這個如果能做出來，它是可以解決幻覺的問題嗎？

朱哲清：對，所以最難的兩個地方是：

泓君：你指的人與人之間的（politics），比如辦公室政治斗爭？

泓君：回形針問題。

朱哲清：對，可能會出現(xiàn)類似的情況。但是第一二三（層級）跟第四（層級）之間是一個鴻溝，如果誰能解決的話會是非常非常大的一個突破。

泓君：有大公司在沿著你說的方向，用RL（強(qiáng)化學(xué)習(xí)）做pretraining（預(yù)訓(xùn)練）的路徑去解決嗎？包括做驗證機(jī)制的泛化。

02 Meta收購ScaleAI，背后藏著多模態(tài)焦慮

泓君：那Meta 為什么還要收購Scale AI？

泓君：它挖的這批人算是在解決長期問題嗎？

朱哲清：對。

泓君：短期是什么？是算力？

泓君：但是也會有新的問題產(chǎn)生，比如說剛我們提到的審美、圖片、視頻的標(biāo)注。

朱哲清：對，但我覺得都是時間問題。

泓君：那你覺得你自己做Pokee AI，你搭A(yù)I Agent的底層開發(fā)哲學(xué)跟邏輯是什么？

泓君：模型的能力用到最強(qiáng)還是接其他的基座大模型嗎？還是你們自己也會開發(fā)自己的模型？

泓君：為什么要開發(fā)自己的模型？這個是所有的通用型Agent它必須具備的一個技能，還是說它也可以只接大模型？

泓君：所以你們搭的是一個垂直的選Agent的模型對不對？

朱哲清：選工具的模型，我們不選Agent，它不只是選單一工具，它是選一個工具序列，就是一個推理加工具選擇的一個模型。

03 強(qiáng)化學(xué)習(xí)正當(dāng)時，技術(shù)圈層與路徑正在重構(gòu)

朱哲清：我覺得他跟我提了很多次model plasticity（模型可塑性）這個問題，模型本身你是不可以無限制對它訓(xùn)練的，你訓(xùn)練到某一個程度它就會fall apart（崩潰）。其實在強(qiáng)化學(xué)習(xí)領(lǐng)域，之前經(jīng)常看到叫catastrophic forgetting（災(zāi)難性遺忘），就是說在你訓(xùn)練很久很久以后，它開始忘記所有過往的學(xué)習(xí)到的知識，然后整個模型像瘋了一樣，它所有原來的 policy（策略）都消失。

泓君：這個出現(xiàn)過嗎？

泓君：你覺得現(xiàn)在整個模型的訓(xùn)練，比如說到GPT 4，甚至是GPT 5，它的數(shù)據(jù)量已經(jīng)到極限了嗎？

泓君：嗯，挺有意思的。你覺得你從他身上學(xué)到了什么？

泓君：嗯，你說到現(xiàn)在對RL（強(qiáng)化學(xué)習(xí)）研究得特別深的人，是以哪些高校或者以哪些中心為原點(diǎn)的？

朱哲清：2015-2018年是AlphaGo、AlphaZero、Mu Zero，到后面比如StarCraft游戲里面的，強(qiáng)化學(xué)習(xí)發(fā)展的一個巔峰，之后就開始沉寂了，然后所有人都說大語言模型可以解決所有事情，到現(xiàn)在突然之間強(qiáng)化學(xué)習(xí)又變火了。我自己看下來是覺得倫敦的David Silver他們這批人做的強(qiáng)化學(xué)習(xí)是有一個自己的風(fēng)格的。它有一個formal verification（形式化驗證）的方式，一定能夠知道對或錯?；谶@個verification（驗證）方式去訓(xùn)練一個非常dedicated（特定的），只能解決一個問題的Agent。它沒有真的說通過一個非常通用的采取決策的action space（行動空間）去訓(xùn)練一個可以解決很多問題的，可驗證的Agent。但是現(xiàn)在倫敦其實做強(qiáng)化學(xué)習(xí)的人也不止David Silver，有很多人在做強(qiáng)化學(xué)習(xí)，我覺得大本營還是灣區(qū)，因為Open AI跟DeepMind的人都在那，大概率還是以那邊為核心。

朱哲清：我覺得這些公司最后都會走向不一樣的專注領(lǐng)域，像早期的，Mistral，OpenAI，Anthropic，大家后面都走了不一樣的路。最后會有一個區(qū)分化、多樣化的過程，然后大家會發(fā)現(xiàn)Agent 都越發(fā)展越不一樣，因為創(chuàng)始人也不一樣，人在這里面會自然地發(fā)展出很多不一樣的一些決定。第二，技術(shù)方向會是一個決定一家公司能否存活下去的核心，原因在于agentic system（智能體系統(tǒng)）的成本很高，雖然你融了很多錢，但是很多 AI 公司的一個核心痛點(diǎn)就是你融了錢，你的growth（增長）越快，你死得越快，因為你都是入不敷出的在做增長，然后你下一輪融資的時候給所有的投資人一看，你的毛利潤全是負(fù)的50%，第一反應(yīng)就是就算我投了你下一輪你有什么辦法把它轉(zhuǎn)正嗎？你說你沒有，那投資人也不會買賬?？傮w來說就變成了一個無限消耗的過程，那技術(shù)的提升會使得你可以把這個毛利潤轉(zhuǎn)正，對投資人來說，只要能增長，那就值得投。所以技術(shù)路徑是你能夠活下來的核心，但是最后的產(chǎn)品發(fā)展形態(tài)以及最后的市場的格局會是創(chuàng)始人以及這個團(tuán)隊的決策所導(dǎo)致的，而且區(qū)分度會很大。

本文為轉(zhuǎn)載內(nèi)容，授權(quán)事宜請聯(lián)系原著作權(quán)人。

歷史搜索全部刪除

熱門搜索

為何強(qiáng)化學(xué)習(xí)火遍硅谷？AGI的關(guān)鍵一步

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

02 Meta收購ScaleAI，背后藏著多模態(tài)焦慮

03 強(qiáng)化學(xué)習(xí)正當(dāng)時，技術(shù)圈層與路徑正在重構(gòu)

評論

為何強(qiáng)化學(xué)習(xí)火遍硅谷？AGI的關(guān)鍵一步

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

02 Meta收購ScaleAI，背后藏著多模態(tài)焦慮

03 強(qiáng)化學(xué)習(xí)正當(dāng)時，技術(shù)圈層與路徑正在重構(gòu)

為何強(qiáng)化學(xué)習(xí)火遍硅谷？AGI的關(guān)鍵一步

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

02 Meta收購ScaleAI，背后藏著多模態(tài)焦慮

03 強(qiáng)化學(xué)習(xí)正當(dāng)時，技術(shù)圈層與路徑正在重構(gòu)

評論

為何強(qiáng)化學(xué)習(xí)火遍硅谷？AGI的關(guān)鍵一步

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

02 Meta收購ScaleAI，背后藏著多模態(tài)焦慮

03 強(qiáng)化學(xué)習(xí)正當(dāng)時，技術(shù)圈層與路徑正在重構(gòu)

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

02 Meta收購ScaleAI，背后藏著多模態(tài)焦慮

01 強(qiáng)化學(xué)習(xí)與AGI的五個層次，真實的分水嶺在哪？

03 強(qiáng)化學(xué)習(xí)正當(dāng)時，技術(shù)圈層與路徑正在重構(gòu)