1月29日,宇樹科技開源其面向通用人形機器人操作的VLA大模型UnifoLM-VLA-0。
據(jù)介紹,針對操作類任務(wù)中對指令理解與空間感知的高要求,模型通過繼續(xù)預(yù)訓(xùn)練深度融合了文本指令與2D/3D空間細節(jié),增強了模型的空間感知能力。同時,模型構(gòu)建了全鏈路動力學(xué)預(yù)測數(shù)據(jù),模型具備更好的任務(wù)泛化性。
基于Qwen2.5-VL-7B開源模型,宇樹構(gòu)建了覆蓋機器人與通用場景的多任務(wù)數(shù)據(jù)集,并開展持續(xù)預(yù)訓(xùn)練。針對操作類任務(wù),團隊還對開源數(shù)據(jù)集進行了系統(tǒng)化清洗,最終僅用約340小時的真機數(shù)據(jù),進行離散動作的預(yù)測訓(xùn)練。
宇樹表示,經(jīng)由仿真環(huán)境與真機實驗的多任務(wù)訓(xùn)練驗證,結(jié)果顯示該模型具備單模型處理多任務(wù)的通用能力,在LIBERO仿真基準測試中,多任務(wù)模型取得了接近最優(yōu)的性能。在真機驗證中,僅需單一策略即可高質(zhì)量完成12類復(fù)雜的操作任務(wù)。(澎湃新聞記者 秦盛)