8月14日,智元機(jī)器人正式發(fā)布行業(yè)首個機(jī)器人世界模型開源平臺——Genie Envisioner(簡稱GE)。該平臺突破傳統(tǒng)“數(shù)據(jù)—訓(xùn)練— 評估”割裂的流水線模式,宣稱首次將未來幀預(yù)測、策略學(xué)習(xí)與仿真評估整合進(jìn)以視頻生成為核心的閉環(huán)架構(gòu),使機(jī)器人能在同一世界模型中完成從“看”到“想”再到“動”的端到端推理與執(zhí)行。

據(jù)介紹,GE平臺通過構(gòu)建統(tǒng)一的視頻生成世界模型,將數(shù)據(jù)收集、模型訓(xùn)練、策略評估等分散環(huán)節(jié)集成到閉環(huán)系統(tǒng)中。其核心組件GE-Base經(jīng)超百萬條數(shù)據(jù)訓(xùn)練,可精準(zhǔn)解析環(huán)境空間布局與動作意圖;GE-Act動作解碼器則實(shí)現(xiàn)從“看懂”到“會做”的關(guān)鍵轉(zhuǎn)化;GE-Sim則將GE-Base的生成能力擴(kuò)展為動作條件的神經(jīng)仿真器,通過層次化動作條件機(jī)制實(shí)現(xiàn)精確的視覺預(yù)測。三大組件緊密協(xié)作,構(gòu)成完整的視覺中心機(jī)器人學(xué)習(xí)平臺。
依托約3000小時的真實(shí)機(jī)器人操控視頻數(shù)據(jù),GE建立了從語言指令到視覺空間的直接映射,完整保留了機(jī)器人與環(huán)境交互的時空信息。

值得一提的是,由智元機(jī)器人主辦的智啟具身論壇近日在2025世界人工智能大會(WAIC)舉行。論壇上,智元機(jī)器人合伙人、具身業(yè)務(wù)部總裁姚卯青以飛機(jī)架構(gòu)為喻,形象解析了GE平臺的核心邏輯:“機(jī)身”GE-Base經(jīng)過海量機(jī)器人真機(jī)數(shù)據(jù)訓(xùn)練,具備長程、多視角的視頻生成能力;兩側(cè)的“雙翼”則分別指向World Action Model和Action-conditioned World Model。

在真實(shí)測試中,搭載GE-Act的機(jī)器人已能完成“做三明治”“倒茶”“擦桌面”等多項(xiàng)任務(wù)。