今年以來,人形機(jī)器人無疑是最流行的熱點(diǎn)之一,如何推動人形機(jī)器人真正落地應(yīng)用?6月6日,在北京智源大會“智源具身智能會客廳”環(huán)節(jié),多位機(jī)器人企業(yè)負(fù)責(zé)人圍繞人形機(jī)器人賽事、產(chǎn)業(yè)化落地、視覺語言動作(VLA,Vision-Language-Action)模型的應(yīng)用與挑戰(zhàn)等話題進(jìn)行了討論。
機(jī)器人賽事是技術(shù)“驗(yàn)證場”
今年以來,隨著各種機(jī)器人賽事的舉辦,引發(fā)了大眾對賽事的熱議,機(jī)器人賽事是技術(shù)的“驗(yàn)證場”,還是“秀肌肉”表演?
宇樹科技CEO王興興表示,現(xiàn)在人形機(jī)器人還不能直接去家里干活,這是現(xiàn)在全球范圍內(nèi)行業(yè)都面臨的問題。宇樹科技的終極目標(biāo)是人形機(jī)器人可以替代人類從事辛苦的工作。在實(shí)現(xiàn)這個終極目標(biāo)前,對于企業(yè)已經(jīng)達(dá)到的技術(shù)成果,希望能通過賽事和表演進(jìn)行展示和普及,以及實(shí)現(xiàn)一定商業(yè)化的作用。
在北京人形機(jī)器人創(chuàng)新中心總經(jīng)理熊友軍看來,機(jī)器人類賽事一方面是知識普及的盛會,讓大眾對機(jī)器人現(xiàn)在發(fā)展?fàn)顩r及技術(shù)水平有比較全面的了解。另一方面,它也是很好的機(jī)器人訓(xùn)練場,對提升機(jī)器人的技術(shù)有很大幫助。此外,這也是機(jī)器人潛在客戶了解和跟機(jī)器人企業(yè)溝通的橋梁。通過比賽,會促成機(jī)器人加速產(chǎn)業(yè)化,加速在真實(shí)場景里做試點(diǎn)應(yīng)用。
“我覺得具身智能當(dāng)下的目標(biāo)就是一定要推動產(chǎn)業(yè)化。 雖然看到了具身智能炫酷的技能,但一定要反思這樣的技能在新的環(huán)境里,在面對新的物品時,在用戶非?!籼?span style="text-indent: 32px; text-wrap: wrap;">’,需要成功率接近百分之百的情況下,它能不能成功?!北本┐髮W(xué)助理教授、北京銀河通用機(jī)器人有限公司創(chuàng)始?兼CTO王鶴表示,希望跟后續(xù)賽事在操作級別上對接起來,用賽事引領(lǐng)有價值、可落地的技能形成,不斷把具身智能的生態(tài)轉(zhuǎn)起來。
上海交通?學(xué)教授、上海穹徹智能科技有限公司聯(lián)合創(chuàng)始?盧策吾表示,人形機(jī)器人賽事很好地展示了機(jī)器人的性能,下一步期待機(jī)器人勞動技能的比賽。
未來機(jī)器人形態(tài)呈現(xiàn)多樣化
在具身智能的大潮下,機(jī)器人一定要做成人形嗎?這成為業(yè)內(nèi)討論的熱門話題。
王興興表示,對于宇樹科技來說,并不堅(jiān)持要做人形機(jī)器人,企業(yè)也做機(jī)器狗。他認(rèn)為,隨著通用人工智能(AGI)或通用AI的發(fā)展,機(jī)器人的形態(tài)將變得更加多樣化。未來,工廠、醫(yī)療等領(lǐng)域的機(jī)器人形式將遠(yuǎn)比現(xiàn)在豐富,甚至可能增加百倍。
為什么現(xiàn)在大量具身智能公司在做人形機(jī)器人?在王興興看來,是因?yàn)楝F(xiàn)在AI基于人的數(shù)據(jù)進(jìn)行采集和訓(xùn)練,尤其是上半身和人的動作一致,數(shù)據(jù)采集方便很多,也方便AI做訓(xùn)練。對于機(jī)器人全身也是一樣,比如跳舞、格斗比賽,如果將機(jī)器人做成別的樣式,就沒辦法完成相應(yīng)動作。
熊友軍也表示,具身智能不一定要局限于人形,但人形是一個比較好的載體。他認(rèn)為,從市場應(yīng)用情況來看,具身智能最多的市場是走入商用和家庭,現(xiàn)在工廠場景只是一個開始,人形機(jī)器人的市場容量比其他的機(jī)器人容量要大。從人機(jī)交互的角度來看,未來,人形機(jī)器人更像家庭伙伴、朋友,更容易被人接受。
“現(xiàn)在的環(huán)境大部分是為人設(shè)計(jì)的,部署人形機(jī)器人和適應(yīng)環(huán)境過程非常便利,人形機(jī)器人可以方便地使用我們的工具,不需要做太多的改造。雖然現(xiàn)在人形機(jī)器人的成本、技術(shù)不占優(yōu)勢,但是放在更長的時間范疇來看,我覺得人形機(jī)器人會是一個很好的載體。”熊友軍說。
VLA模型仍存在局限性
2025年以來,一種全新的技術(shù)范式,即VLA模型正在加速崛起。在無人駕駛領(lǐng)域,VLA模型已經(jīng)成為了主流的解決方案。據(jù)了解,VLA 模型整合視覺理解、語言推理與端到端控制于單一模型,使機(jī)器人能在復(fù)雜環(huán)境中推理和行動。
VLA模型泛化性如何?王鶴表示,自動駕駛領(lǐng)域已經(jīng)驗(yàn)證了端到端方案的優(yōu)越性,VLA模型的核心優(yōu)勢在于能夠直接從視覺觀測和自然語言指令中端到端地輸出動作,無需中間產(chǎn)物。王鶴認(rèn)為,人類除視覺的輸入之外,還有味覺、觸覺、嗅覺、聽覺以及對溫度的感知。所以VLA模型只能是一個起點(diǎn),如果想達(dá)到人類級別的具身智能,還需要不斷融入新模態(tài)。
VLA模型現(xiàn)在最適合做什么呢?王鶴認(rèn)為,主要是移動、抓取和放置。這幾個技能主要依賴視覺為主,輔以觸覺或力覺傳感器,能在工業(yè)、商業(yè)非常廣泛的應(yīng)用。如果能夠?qū)LA模型在工業(yè)、商業(yè)、服務(wù)等場景中部署成功,將標(biāo)志著具身智能技術(shù)真正走向?qū)嵱没?/p>
在盧策吾看來,VLA模型的擴(kuò)展性雖然強(qiáng)大,但仍存在局限性。具身智能的發(fā)展需要逐步落地,同時也要有長遠(yuǎn)目標(biāo),即推動通用智能的發(fā)展。相比于無人車,機(jī)器人的任務(wù)和交互復(fù)雜度高,通用空間很大。VLA模型需要不斷加入新的模態(tài)信息,不斷壓縮它的不確定性,如力反饋和物理世界理解,以增強(qiáng)模型的魯棒性和適應(yīng)性,從而推動VLA模型逐步走向通用智能。
Physical Intelligence聯(lián)合創(chuàng)始?兼CEO Karol Hausman表示,VLA模型最大的瓶頸在于算法,他認(rèn)為,現(xiàn)在數(shù)據(jù)是海量的,需要提升和改善VLA模型的算法來運(yùn)用這些無盡的數(shù)據(jù)。
劉琴/攝
友情鏈接: 政府 高新園區(qū)合作媒體
Copyright 1999-2024 中國高新網(wǎng)chinahightech.comAll Rights Reserved.京ICP備14033264號-5
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證060344號主辦單位:《中國高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》社有限責(zé)任公司