<匯港通訊> 小米(01810)正式發布並開源首代機器人VLA(Vision-Language-Action)大模型「Xiaomi-Robotics-0」。
小米創辦人雷軍發文表示,Xiaomi-Robotics-0是兼具視覺語言理解與高性能實時執行能力的具身智慧VLA模型。在主流的Libero、Calvin和SimplerEnv測試集,包括所有的Benchmark和30種模型對比中,均取得當前最優的成績。他還指出,小米很早開始布局機器人業務,歡迎更多優秀同學加入機器人團隊。
據介紹,該模型擁有47億參數,核心解決了傳統VLA模型推理延遲、真機動作不連貫的行業痛點,兼具視覺語言理解與高性能即時執行能力,可在消費級顯卡上實現即時推理,在模擬測試和真機任務中均刷新多項SOTA(State-of-the-Art,是指在特定任務中目前表現最好的方法或模型)成績。
小米技術在官方微信表示,Xiaomi-Robotics-0採用主流的Mixture-of-Transformers(MoT)架構,通過「視覺語言大腦(VLM)+動作執行小腦(Action Expert)」的組合,實現「感知-決策-執行」的高效閉環,兼顧通用理解與精細動作控制。
其中,「視覺語言大腦」以多模態VLM大模型為底座,負責理解人類的模糊指令(如「請把毛巾疊好」),並從高清視覺輸入中捕捉空間關係;「動作執行小腦」嵌入多層Diffusion Transformer(DiT),不直接輸出單一動作,而是生成一個「動作塊」(Action Chunk),並通過流匹配(Flow-matching)技術確保動作的精準度。
為避免模型學動作丟失基礎理解能力,小米設計了「跨模態預訓練+後訓練」的兩階段訓練方法,讓模型既懂常識又精通體力活。
小米已將Xiaomi-Robotics-0的技術主頁、開源代碼、模型權重全量開放,相關資源可分別在GitHub、Hugging Face等平台獲取。 (ST)
新聞來源 (不包括新聞圖片): 滙港資訊