探索物理智能大模型的突破與挑戰(zhàn),定義具身智能新生態(tài)——對(duì)話智澄AI創(chuàng)始人兼CEO、微軟系40大AI科學(xué)家胡魯輝
引言:引領(lǐng)物理智能革命
具身智能正以前所未有的速度突破虛擬與現(xiàn)實(shí)的邊界,而人形機(jī)器人作為其終極載體,已成為全球科技競(jìng)賽的戰(zhàn)略級(jí)賽道。從物理建模到感知進(jìn)化,從算法創(chuàng)新到工程落地,物理智能正引領(lǐng)一場(chǎng)深刻的產(chǎn)業(yè)變革。在這次專訪中,我們與智澄AI創(chuàng)始人兼CEO、微軟系40大AI科學(xué)家胡魯輝深入探討了如何通過物理智能大模型破解人形機(jī)器人泛化難題,推動(dòng)通用人工智能在物理世界的真正落地與生態(tài)構(gòu)建。
1、創(chuàng)業(yè)初心:從虛擬智能到物理世界的跨越
WAIC:
您擁有在Meta、華為、京東等全球科技巨頭豐富的AI與云計(jì)算研發(fā)管理經(jīng)驗(yàn),是什么契機(jī)促使您創(chuàng)立智澄AI,投身于物理智能與人形機(jī)器人這一前沿領(lǐng)域?
胡魯輝:
我的職業(yè)軌跡跨越了人工智能和云計(jì)算發(fā)展的關(guān)鍵二十年,從微軟、亞馬遜的早期AI探索,到Meta、華為、京東的規(guī)模化技術(shù)落地與管理。這段經(jīng)歷讓我深刻理解技術(shù)演進(jìn)規(guī)律與產(chǎn)業(yè)落地的挑戰(zhàn)。創(chuàng)立智澄AI,源于一個(gè)清晰的洞察:生成式AI在數(shù)字世界高歌猛進(jìn)的同時(shí),物理智能,即讓AI深度理解并作用于三維物理世界的能力,將成為下一輪顛覆性創(chuàng)新的核心。我們看到黃仁勛等領(lǐng)袖也敏銳地指出了這一點(diǎn)。
人行機(jī)器人當(dāng)前的痛點(diǎn)在于泛化能力。人形機(jī)器人在展會(huì)上的驚艷表現(xiàn)與落地應(yīng)用的匱乏形成巨大反差。“場(chǎng)景換模型”的模式導(dǎo)致開發(fā)成本高昂而功能局限。物理智能大模型,通過融合物理規(guī)律認(rèn)知與跨模態(tài)感知,構(gòu)建統(tǒng)一智能框架,是打破這一僵局、實(shí)現(xiàn)“一腦多能”的關(guān)鍵。智澄AI正是在2024年3月,瞄準(zhǔn)這一歷史性機(jī)遇而誕生。
我們的愿景清晰而堅(jiān)定,讓通用人工智能賦能物理世界,服務(wù)每個(gè)人和每個(gè)組織。我曾入選微軟系40大AI科學(xué)家,并擔(dān)任聯(lián)合國(guó)世界數(shù)字技術(shù)院專家委員等職,這些經(jīng)歷賦予我整合全球視野與資源的能力,去挑戰(zhàn)這一宏偉目標(biāo)。
02、物理智能:破解人形機(jī)器人泛化瓶頸
WAIC:
您提到物理智能大模型是解決人形機(jī)器人泛化能力不足的關(guān)鍵。能否具體闡述智澄AI在這一核心技術(shù)上的突破路徑,以及它如何改變機(jī)器人的進(jìn)化邏輯?
胡魯輝:
核心在于構(gòu)建一個(gè)理解物理世界的具身世界模型,能深度融合物理規(guī)律認(rèn)知與跨模態(tài)感知能力的統(tǒng)一智能框架。我們?cè)O(shè)計(jì)的物理智能大模型基于世界模型,創(chuàng)新我們已自研的VLM+DP模型,可以理解為通過三層架構(gòu)突破瓶頸:在感知層,整合激光雷達(dá)、觸覺傳感器、IMU等多源數(shù)據(jù),構(gòu)建實(shí)時(shí)動(dòng)態(tài)的物理場(chǎng)域模型,讓機(jī)器人像人一樣“感知”世界的力量、形變、運(yùn)動(dòng)。
在認(rèn)知層,將牛頓力學(xué)、材料特性、能量守恒等數(shù)萬(wàn)條物理定律編碼為可計(jì)算知識(shí)圖譜,賦予機(jī)器理解物理世界運(yùn)行法則的“常識(shí)”。
在執(zhí)行層,利用世界模型預(yù)測(cè)和生成適應(yīng)各類場(chǎng)景的動(dòng)作策略。例如,我們的抓取系統(tǒng),無(wú)需預(yù)先輸入物體參數(shù),僅憑視覺和觸覺反饋就能動(dòng)態(tài)調(diào)整力度,穩(wěn)定操作從玻璃杯到塑料袋等多樣物品。
這種底層革新催生“一腦多能”的生態(tài)。它使得機(jī)器人硬件標(biāo)準(zhǔn)化成為可能——當(dāng)智能中樞具備強(qiáng)大的自適應(yīng)能力,末端執(zhí)行器無(wú)需為每個(gè)場(chǎng)景定制,整機(jī)成本有望降低60%以上。英國(guó)Shadow Robot的Dexterous Hand能跨領(lǐng)域操作,美國(guó)Figure 01能自主完成多種家庭任務(wù),都印證了這一趨勢(shì)。
WAIC:
在機(jī)器人技術(shù)的快速演進(jìn)中,如何看待不斷升級(jí)的硬件和智能系統(tǒng)在實(shí)際應(yīng)用中的落地情況?在推動(dòng)這些技術(shù)的同時(shí),智澄AI與產(chǎn)業(yè)界有哪些合作?
胡魯輝:
在智澄AI的成長(zhǎng)過程中,快速迭代和與實(shí)際場(chǎng)景的驗(yàn)證始終是我們工作的重點(diǎn)。從TR系列產(chǎn)品的迭代看,我們從最初的TR1專注于基本的搬運(yùn)和分揀,到后來(lái)的TR4,針對(duì)不同的應(yīng)用場(chǎng)景進(jìn)行了優(yōu)化和提升,比如在工業(yè)和家庭環(huán)境中自主完成復(fù)雜任務(wù)。每一次技術(shù)更新都基于團(tuán)隊(duì)對(duì)行業(yè)需求的深刻理解,TR系列的每一代產(chǎn)品都力求通過創(chuàng)新解決用戶的實(shí)際問題,確保機(jī)器人能在不同場(chǎng)景中高效運(yùn)行。
在產(chǎn)業(yè)生態(tài)建設(shè)方面,我們非常注重與上下游合作伙伴的深度協(xié)同。通過開放的生態(tài)體系,我們鼓勵(lì)全球開發(fā)者一起測(cè)試、優(yōu)化技術(shù),提升機(jī)器人產(chǎn)品的通用性和可擴(kuò)展性。同時(shí),我們還與各行各業(yè)的企業(yè)進(jìn)行深度合作,推動(dòng)技術(shù)的應(yīng)用場(chǎng)景落地。例如,TR3的清潔功能就得益于與家具行業(yè)的聯(lián)合研發(fā),TR4的精密抓取能力則是與制造企業(yè)的合作成果。我們相信,只有通過產(chǎn)業(yè)鏈協(xié)同創(chuàng)新,才能真正釋放機(jī)器人技術(shù)的潛力。
03、中國(guó)AI加速度與商業(yè)化挑戰(zhàn)
WAIC:
您如何看待當(dāng)前中國(guó)在AI,特別是在具身智能領(lǐng)域的發(fā)展態(tài)勢(shì)和獨(dú)特路徑?
胡魯輝:
中國(guó)AI發(fā)展正上演驚人的加速度。在這五年里,從“了解世界”,像AI四小龍時(shí)期,跨越到“創(chuàng)造世界”,如大模型六小龍階段。例如DeepSeek - MoE,它只花了2000萬(wàn)元的訓(xùn)練成本,能力就已經(jīng)接近GPT-4了。這也體現(xiàn)出發(fā)展模式的變化:在過去十年,計(jì)算所需的成本降低到原來(lái)的千分之一,算法效率每年能提升230%,中國(guó)正憑借“技術(shù)經(jīng)濟(jì)學(xué)”改變游戲規(guī)則。
在生態(tài)系統(tǒng)全面升級(jí)方面,已經(jīng)搭建起了由百度飛槳框架、華為昇騰芯片、騰訊TI - Matrix系統(tǒng)組成的完整技術(shù)體系。國(guó)產(chǎn)芯片為智能計(jì)算中心提供了45%的算力。在應(yīng)用領(lǐng)域深入拓展方面,醫(yī)療領(lǐng)域的模型讓罕見病的診斷準(zhǔn)確率提高到了97%,工業(yè)生產(chǎn)中人工智能質(zhì)量檢測(cè)的效率提升了40倍。
中國(guó)企業(yè)采用“低成本超車”的策略,重新塑造了價(jià)值鏈條。如DeepSeek把訓(xùn)練千億參數(shù)模型的成本降低到國(guó)際水平的五十分之一,使全球35%的開源項(xiàng)目都接入了中國(guó)模型的接口。華為昇騰云能快速適配30個(gè)國(guó)產(chǎn)大模型,阿里云把推理時(shí)消耗的能量降低了75%,現(xiàn)在企業(yè)的核心競(jìng)爭(zhēng)力變成了把技術(shù)優(yōu)勢(shì)轉(zhuǎn)化為經(jīng)濟(jì)效益的能力。
WAIC:
在技術(shù)狂奔的同時(shí),行業(yè)面臨哪些關(guān)鍵挑戰(zhàn)?
胡魯輝:
一個(gè)是商業(yè)化落地存在裂縫。除了英偉達(dá)等硬件行業(yè)的大公司,大多數(shù)AI企業(yè)還在摸索盈利模式。主要挑戰(zhàn)在于,工業(yè)領(lǐng)域80%的企業(yè)因?yàn)閿?shù)據(jù)無(wú)法共享,很難安裝智能系統(tǒng);在自動(dòng)駕駛方面,每公里道路的改造費(fèi)用高達(dá)300萬(wàn)元;在安防領(lǐng)域,AI系統(tǒng)的維護(hù)成本是購(gòu)買硬件成本的3倍。
另一方面,安全是關(guān)鍵問題。安全是AI發(fā)展的基礎(chǔ)。從ChatGPT的價(jià)值觀受到質(zhì)疑,到機(jī)器人引發(fā)安全事故,都提醒我們必須盡快建立安全體系。智澄AI堅(jiān)持“安全第一”的原則,建立了全面的體系:聘請(qǐng)了機(jī)器人安全工程專家;制定了涵蓋研發(fā)、測(cè)試、生產(chǎn)等環(huán)節(jié)的安全規(guī)定;嚴(yán)格遵守國(guó)家和國(guó)際的安全標(biāo)準(zhǔn)。
04、未來(lái)圖景:融合、工程化與生態(tài)共建
WAIC:
展望未來(lái),您認(rèn)為推動(dòng)物理智能和通用人形機(jī)器人走向大規(guī)模落地的關(guān)鍵要素是什么?
胡魯輝:
要實(shí)現(xiàn)物理與數(shù)字世界的徹底融合,讓機(jī)器智能成為人類能力的自然延伸,三大要素至關(guān)重要。
首先是持續(xù)進(jìn)化,打造強(qiáng)大的智能基礎(chǔ)和能自適應(yīng)學(xué)習(xí)的算法。不能只滿足于當(dāng)下提升效率,比如昇騰910B能讓訓(xùn)練效率提高5倍,小米工廠的質(zhì)檢能達(dá)到8毫秒級(jí)別。我們要開發(fā)多模態(tài)系統(tǒng)和各種不同的芯片,讓AI從特殊的技術(shù)變成大家都能使用的工具。
其次是強(qiáng)化工程化能力,這就像是技術(shù)在現(xiàn)實(shí)中能否存活的“自然選擇”。特斯拉的Optimus關(guān)節(jié)成本降低了70%,是因?yàn)檫\(yùn)用了汽車工程化的方法;百度飛槳的標(biāo)準(zhǔn)化工具鏈把工業(yè)模型的部署時(shí)間從3個(gè)月縮短到了7天。有了工程化思維,AI產(chǎn)業(yè)才能發(fā)展起來(lái),融入到我們的生活中。
另外需要加快產(chǎn)業(yè)落地與生態(tài)構(gòu)建,要打破技術(shù)之間的隔閡,需要有跨行業(yè)的工程化基礎(chǔ),統(tǒng)一接口、封裝規(guī)范和部署架構(gòu)。在醫(yī)療方面,聯(lián)影智能的AGI系統(tǒng)接入了全國(guó)90%的三甲醫(yī)院,肺結(jié)節(jié)篩查的準(zhǔn)確率達(dá)到99.2%;在教育方面,好未來(lái)的模型能根據(jù)2億條解題路徑生成適合個(gè)人的方案。工程化組件就像是讓技術(shù)廣泛應(yīng)用的“基因編輯工具”,能推動(dòng)技術(shù)從“工具智能”向“生態(tài)智能”轉(zhuǎn)變。
(來(lái)源:世界人工智能大會(huì))