昔日的華為天才少年“稚暉君”,又站到了聚光燈下。
3月10日,智元機(jī)器人正式發(fā)布了全球首個(gè)通用具身基座大模型——智元啟元大模型(Genie Operator-1,簡(jiǎn)稱GO-1),這標(biāo)志著具身智能向通用化、開(kāi)放化、智能化方向快速邁進(jìn)。
在生成式AI遭遇邊際效益遞減的當(dāng)下,具身智能正成為AI技術(shù)突破物理世界的關(guān)鍵路徑。該模型通過(guò)首創(chuàng)ViLLA架構(gòu),整合多模態(tài)大模型與混合專家系統(tǒng),使機(jī)器人僅需千條以內(nèi)的視頻數(shù)據(jù),即可掌握擦拭、倒水等復(fù)雜動(dòng)作,訓(xùn)練成本驟降。
這項(xiàng)突破不僅實(shí)現(xiàn)了“一腦多形”的跨本體遷移能力,更通過(guò)持續(xù)進(jìn)化的數(shù)據(jù)回流系統(tǒng),讓家庭服務(wù)機(jī)器人,首次具備了通過(guò)日常交互積累物理經(jīng)驗(yàn)的可能。
“我們公司使命是運(yùn)用通用機(jī)器人來(lái)創(chuàng)造無(wú)限生產(chǎn)力,機(jī)器人只有硬件本體,那肯定是不夠的。將來(lái),AI能力一定是區(qū)分整個(gè)機(jī)器人產(chǎn)品競(jìng)爭(zhēng)力的核心環(huán)節(jié)。就像今天的新能源車、手機(jī)一樣,硬件供應(yīng)鏈也會(huì)高度整合,在最后比拼的一定是AI能力。”智元合伙人、具身業(yè)務(wù)部總裁、研究院執(zhí)行院長(zhǎng)姚卯青在當(dāng)日的溝通會(huì)對(duì)21世紀(jì)經(jīng)濟(jì)報(bào)道等媒體直言,如果機(jī)器人沒(méi)有自主作業(yè)能力,價(jià)值是非常有限的。
這個(gè)大模型已部署到智元研發(fā)的多款機(jī)器人本體中。他透露,具身智能的AI研發(fā)是公司的戰(zhàn)略級(jí)投入。
截止到目前,智元機(jī)器人已完成了天使輪、A輪、A1輪等多輪融資,其創(chuàng)始人“稚暉君”彭志輝于1993年出生,畢業(yè)于電子科技大學(xué)信通學(xué)院。2020年,他以“華為天才少年計(jì)劃”加入華為。
2022年離職開(kāi)啟創(chuàng)業(yè)后,彭志輝創(chuàng)辦的智元機(jī)器人已經(jīng)率先在行業(yè)內(nèi)完成了機(jī)器人大規(guī)模量產(chǎn),再用百萬(wàn)級(jí)別的數(shù)據(jù),進(jìn)行大模型自主研發(fā)。姚卯青表示,在五年后的未來(lái),物理AI能夠真正落地家庭場(chǎng)景。隨著模型的不斷升級(jí)優(yōu)化,機(jī)器人被帶回家后,人們可以自己進(jìn)行視教,而不是通過(guò)數(shù)據(jù)采集。
機(jī)器人做家務(wù)可期
讓AI在虛擬世界生成完美圖片容易,但在現(xiàn)實(shí)世界中,教機(jī)器人穩(wěn)定抓取雞蛋卻很難。因此,當(dāng)宇樹(shù)機(jī)器人扭著秧歌在蛇年春晚亮相后,瞬間成為智能硬件新晉頂流。
過(guò)去的小模型之所以只能停留在實(shí)驗(yàn)室而無(wú)法走到公眾面前,是因?yàn)樗鼈儫o(wú)法通過(guò)對(duì)大規(guī)模圖文和視頻的學(xué)習(xí),來(lái)構(gòu)建通用的場(chǎng)景感知和指令理解。
“每一個(gè)新場(chǎng)景下的新動(dòng)作,都需要大量的數(shù)據(jù)學(xué)習(xí),而且成功率不高,不同形態(tài)之間的機(jī)器人也無(wú)法共享數(shù)據(jù)。”智元具身研究中心常務(wù)主任任廣輝坦言,這種反差揭示了AI發(fā)展的深層矛盾:當(dāng)數(shù)字世界的智能水平逼近人類時(shí),物理世界的笨拙機(jī)械臂仍需要工程師逐行輸入預(yù)設(shè)指令代碼。
這些現(xiàn)實(shí)局限,倒逼著機(jī)器人領(lǐng)域技術(shù)路線的革新。
智元機(jī)器人公布的GO-1基座大模型,展示了突破物理智能瓶頸的全新路徑。這個(gè)集成了ViLLA架構(gòu)的4D世界模型,能夠?qū)〞r(shí)間在內(nèi)的整個(gè)物理世界囊括其中,可以實(shí)現(xiàn)小樣本泛化。
任廣輝舉例道,拿海綿布擦拭有污漬的桌子這一動(dòng)作,機(jī)器人僅需要150條數(shù)據(jù)就能學(xué)會(huì);對(duì)于倒水這一相對(duì)復(fù)雜的動(dòng)作,僅需1000條左右,而沒(méi)有搭載GO-1模型的機(jī)器人,則需要一萬(wàn)甚至五萬(wàn)條數(shù)據(jù)。“這就降低了一到兩個(gè)數(shù)量級(jí)的采集時(shí)間和成本。更重要的是,GO-1模型同一套算法可同時(shí)應(yīng)用于雙足、輪式、機(jī)械臂等不同形態(tài)的機(jī)器人。”
從性能來(lái)看,GO-1相比已有模型成功率大幅領(lǐng)先,平均成功率提高了32%。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),在倒水、清理桌面、補(bǔ)充飲料等任務(wù)中表現(xiàn)相對(duì)突出。
因此,家庭場(chǎng)景的突破更令人期待。未來(lái),機(jī)器人能通過(guò)日常交互積累物理經(jīng)驗(yàn):當(dāng)掃地機(jī)器人第10次撞到桌腿時(shí),它不再重復(fù)錯(cuò)誤,而是建立空間記憶模型;照料老人的陪護(hù)機(jī)器人,則通過(guò)長(zhǎng)期觀察學(xué)會(huì)預(yù)防跌倒的預(yù)判能力。
這種持續(xù)學(xué)習(xí)機(jī)制,正在打破服務(wù)機(jī)器人“智能不足”的發(fā)展瓶頸。
談及人們普遍關(guān)心的家庭機(jī)器人,姚卯青表示機(jī)器人進(jìn)入家庭涉及行業(yè)安全標(biāo)準(zhǔn),伴隨技術(shù)發(fā)展,從推進(jìn)到落地需要五年左右的時(shí)間,定價(jià)估計(jì)在三十萬(wàn)元以上。“學(xué)習(xí)倒咖啡這一個(gè)動(dòng)作,訓(xùn)練軟件的成本可以在萬(wàn)元之內(nèi)解決,但這并不包含機(jī)器人本體的硬件成本。”
物理AI聚焦多場(chǎng)景
物理AI在未來(lái)可以覆蓋工業(yè)、商業(yè)、家庭等全方位社會(huì)場(chǎng)景,但短期內(nèi),智元會(huì)聚焦于工業(yè)場(chǎng)景,并且已有試點(diǎn)項(xiàng)目在工廠落地。
“數(shù)據(jù)是模型的燃料。”姚卯青強(qiáng)調(diào),數(shù)據(jù)回流系統(tǒng)保證了GO-1模型的“持續(xù)進(jìn)化”特性。有人工審核參與的數(shù)據(jù)回流系統(tǒng),會(huì)把錯(cuò)誤場(chǎng)景或錯(cuò)誤動(dòng)作的數(shù)據(jù)上報(bào),以確保數(shù)據(jù)集的質(zhì)量,后續(xù)再加入到模型訓(xùn)練當(dāng)中。
一直以來(lái),工業(yè)場(chǎng)景對(duì)數(shù)據(jù)的要求較高,在互聯(lián)網(wǎng)上也很難獲取。同時(shí),工業(yè)場(chǎng)景動(dòng)作成功率對(duì)應(yīng)門(mén)檻也相對(duì)較高。但在工業(yè)方面,對(duì)數(shù)據(jù)成本的容忍度也更高,人們更加關(guān)心最終的落地效果。在模型訓(xùn)練時(shí),幾萬(wàn)條甚至幾十萬(wàn)條數(shù)據(jù)都是可以接受的程度。
此外,開(kāi)源生態(tài)建設(shè)也成為破局關(guān)鍵。姚卯青表示,AgiBot World開(kāi)源項(xiàng)目?jī)芍苤畠?nèi),一直占據(jù)榜首第一的位置,所獲好評(píng)量,遠(yuǎn)超Google旗下的類似數(shù)據(jù)集。這種協(xié)作模式大幅降低了行業(yè)合作成本與準(zhǔn)入門(mén)檻。
“生成式AI的發(fā)展是有明確的產(chǎn)業(yè)分工的,像數(shù)據(jù)的采集標(biāo)注、審核甚至是數(shù)據(jù)的交易都有一些平臺(tái)性的機(jī)構(gòu)出現(xiàn),那么在機(jī)器人領(lǐng)域,我認(rèn)為這也是有機(jī)會(huì)的。”姚卯青表示,如果每一家都來(lái)自己建設(shè)場(chǎng)地、投入設(shè)備,是一個(gè)重復(fù)造輪子、重復(fù)投資的行為。長(zhǎng)期來(lái)看的話,可以由個(gè)別的幾家企業(yè)來(lái)集中承擔(dān)公共平臺(tái)的職責(zé)。
針對(duì)近日市場(chǎng)上定價(jià)9.9萬(wàn)機(jī)器人所引發(fā)的熱度與討論,姚卯青認(rèn)為當(dāng)前階段,機(jī)器人領(lǐng)域應(yīng)該以價(jià)值為導(dǎo)向,而非低價(jià)競(jìng)爭(zhēng)。“我們對(duì)AI研發(fā)的戰(zhàn)略級(jí)投入是非常堅(jiān)定的。智能化今年已經(jīng)開(kāi)始規(guī)模化量產(chǎn)和交付,相關(guān)研發(fā)投入可以較好地被分?jǐn)偟簦粫?huì)被顯著地轉(zhuǎn)移到終端售價(jià)上。”
信達(dá)證券認(rèn)為,AI的發(fā)展從根本上推進(jìn)了人形機(jī)器人和自動(dòng)駕駛等端側(cè)的發(fā)展。Grok3/o3-mini等模型展示了對(duì)物理定律逐步深刻的理解,而DeepSeek相關(guān)模型則反映了推理成本的迅速降低。
受此激勵(lì),端側(cè)較高級(jí)別的智能落地可期,人形機(jī)器人或迎來(lái)迅速產(chǎn)業(yè)化。相較于人形機(jī)器人,工業(yè)機(jī)器人早已在汽車、光伏、物流等多個(gè)行業(yè)廣泛應(yīng)用。
國(guó)家市場(chǎng)監(jiān)督管理總局?jǐn)?shù)據(jù)顯示,截至2024年12月底,全國(guó)共有45.17萬(wàn)家智能機(jī)器人產(chǎn)業(yè)企業(yè),注冊(cè)資本共計(jì)64445.57億元,企業(yè)數(shù)量較2020年底增長(zhǎng)206.73%,較2023年底增長(zhǎng)19.39%,呈穩(wěn)健上揚(yáng)態(tài)勢(shì)。國(guó)家統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2024年我國(guó)工業(yè)機(jī)器人累計(jì)產(chǎn)量達(dá)到55.6萬(wàn)套,同比增長(zhǎng)14.2%。
不過(guò),當(dāng)行業(yè)出現(xiàn)井噴之勢(shì),洗牌也會(huì)來(lái)臨。而AI+大模型的能力成為下一個(gè)競(jìng)爭(zhēng)的關(guān)鍵環(huán)節(jié)。
姚卯青認(rèn)為,大模型在機(jī)器人行業(yè)的應(yīng)用也會(huì)經(jīng)歷一些漸進(jìn)式的發(fā)展,會(huì)從一些較為容易入手、結(jié)構(gòu)化場(chǎng)景較為明確的地方,先去進(jìn)行落地探索。然后逐漸再演化到一些半結(jié)構(gòu)化和半開(kāi)放的任務(wù)和場(chǎng)景,最終真正實(shí)現(xiàn)通用人工智能AGI在物理世界的應(yīng)用。“可能到那個(gè)時(shí)候,我們真正能走入千家萬(wàn)戶,去在家庭中執(zhí)行各類開(kāi)放式的指令任務(wù)。近兩年,我們還是會(huì)去集中看一些工業(yè)、服務(wù)業(yè)在商業(yè)領(lǐng)域的應(yīng)用。”
或許,機(jī)器人真正走到我們身邊仍然需要時(shí)間,但步伐已經(jīng)在加快,行業(yè)也被拉到前所未有的高度。
對(duì)于智元機(jī)器人來(lái)說(shuō),已實(shí)現(xiàn)了年均千臺(tái)的量產(chǎn)規(guī)模,家庭場(chǎng)景依然是其長(zhǎng)期目標(biāo)。諸如倒茶、制作早餐之類的簡(jiǎn)單任務(wù),未來(lái)可能只需要幾千元成本即可實(shí)現(xiàn)。
“我們用兩年時(shí)間,走完了別人可能八年都沒(méi)有走完的路,”姚卯青堅(jiān)定相信,智能化才是機(jī)器人的未來(lái),且未來(lái)會(huì)持續(xù)投入到軟硬件一體化研發(fā)中。