新聞中心 /News
九游會(huì)j9官方網(wǎng)站瑜伽球上訓(xùn)練出來(lái)的機(jī)器狗比大多數(shù)健身者更能靈活運(yùn)用訓(xùn)練資源
九游會(huì)j9官方網(wǎng)站瑜伽球上訓(xùn)練出來(lái)的機(jī)器狗比大多數(shù)健身者更能靈活運(yùn)用訓(xùn)練資源這只四足機(jī)器人搖搖晃晃地走著,在一個(gè)健身球上努力保持平衡,這是一個(gè)有趣的實(shí)驗(yàn),但其核心是,它證明了像 GPT-4 這樣的人工智能可以訓(xùn)練機(jī)器人執(zhí)行復(fù)雜的實(shí)際任務(wù),比我們?nèi)祟惛行А?/p>
DrEureka是一個(gè)任何人都可以獲取的開(kāi)源軟件包,用于使用大型語(yǔ)言模型(LLM)(如ChatGPT 4)訓(xùn)練機(jī)器人執(zhí)行現(xiàn)實(shí)世界中的任務(wù)。這是一個(gè)模擬到現(xiàn)實(shí)系統(tǒng),也就是說(shuō),它在虛擬環(huán)境中使用模擬物理原理對(duì)機(jī)器人進(jìn)行教學(xué),然后再在現(xiàn)實(shí)空間中實(shí)施。
吉姆-范(Jim Fan)博士是 DrEureka 的開(kāi)發(fā)者之一,他部署的 Unitree Go1 四足機(jī)器人一躍成為頭條新聞。這是一款低成本、支持良好的開(kāi)源機(jī)器人--這很方便,因?yàn)榧词褂辛巳斯ぶ悄埽瑱C(jī)器人寵物仍然很容易摔傷。至于低成本,它在亞馬遜上的售價(jià)為 5899 美元,評(píng)分為 1 星……
DrEureka 中的Dr代表領(lǐng)域隨機(jī)化,即在模擬環(huán)境中隨機(jī)化摩擦、質(zhì)量、阻尼、重心等變量。
只需在 ChatGPT 等 LLM 中輸入一些提示,人工智能就能編寫(xiě)代碼,創(chuàng)建一個(gè)獎(jiǎng)勵(lì)/懲罰系統(tǒng),在虛擬空間中訓(xùn)練機(jī)器人,其中 0 = 失敗j9九游會(huì)真人游戲,高于 0 則為勝利。得分越高越好。
它可以通過(guò)最小化和最大化球的彈跳力、運(yùn)動(dòng)強(qiáng)度、肢體自由度和阻尼等方面的失效點(diǎn)/爆發(fā)點(diǎn)來(lái)創(chuàng)建參數(shù)。作為一個(gè) LLM,它可以毫不費(fèi)力地大量創(chuàng)建這些參數(shù),供訓(xùn)練系統(tǒng)同時(shí)運(yùn)行。
每次模擬后,GPT 還可以反思虛擬機(jī)器人的表現(xiàn),以及如何改進(jìn)。如果超出或違反參數(shù),例如電機(jī)過(guò)熱或試圖以超出其能力的方式銜接肢體,都將導(dǎo)致 0 分...沒(méi)有人喜歡得零分,人工智能也不例外。
提示 LLM 編寫(xiě)代碼需要安全指令--否則,研究小組發(fā)現(xiàn) GPT 會(huì)努力追求最佳性能,會(huì)在沒(méi)有指導(dǎo)的情況下在模擬中作弊。這在模擬中沒(méi)有問(wèn)題,但在現(xiàn)實(shí)生活中可能會(huì)導(dǎo)致電機(jī)過(guò)熱或肢體過(guò)度伸展,從而損壞機(jī)器人--研究人員稱這種現(xiàn)象為退化行為。
虛擬機(jī)器人自學(xué)成才的非自然行為的一個(gè)例子是,它發(fā)現(xiàn)自己可以更快地移動(dòng),方法是將臀部插入地面,用三只腳拖著臀部在地板上竄來(lái)竄去。雖然這在模擬中是一種優(yōu)勢(shì),但當(dāng)機(jī)器人在現(xiàn)實(shí)世界中嘗試時(shí)就尷尬了。
因此,研究人員指示 GPT 要格外小心,因?yàn)闄C(jī)器人將在真實(shí)世界中接受測(cè)試--為此,GPT 創(chuàng)建了安全功能,如平滑動(dòng)作、軀干方向、軀干高度,并確保機(jī)器人的電機(jī)不會(huì)扭矩過(guò)大。如果機(jī)器人作弊,違反了這些參數(shù),其獎(jiǎng)勵(lì)函數(shù)就會(huì)降低得分。安全功能可以減少退化和不自然的行為,比如不必要的骨盆推力。
那么它的表現(xiàn)如何呢?比我們強(qiáng)。DrEureka 在訓(xùn)練機(jī)器人pooch的過(guò)程中擊敗了人類,在實(shí)際的混合地形中,它的前進(jìn)速度和行進(jìn)距離分別提高了 34% 和 20%。
如何做到?研究人員認(rèn)為,這與教學(xué)方式有關(guān)。人類傾向于課程式的教學(xué)環(huán)境--把任務(wù)分解成一個(gè)個(gè)小步驟,并試圖孤立地解釋它們,而 GPT 能夠有效地一次性傳授所有知識(shí)。這是我們根本無(wú)法做到的。
DrEureka 是同類產(chǎn)品中的首創(chuàng)。它能夠從模擬世界零距離進(jìn)入現(xiàn)實(shí)世界。想象一下,在對(duì)周圍世界幾乎一無(wú)所知的情況下,你被推出巢穴,只能自己摸索。這就是零鏡頭。
DrEureka 的創(chuàng)造者認(rèn)為,如果他們能向 GPT 提供真實(shí)世界的反饋,就能進(jìn)一步改進(jìn)模擬到現(xiàn)實(shí)的訓(xùn)練。目前,所有的模擬訓(xùn)練都是利用機(jī)器人自身本體感覺(jué)系統(tǒng)的數(shù)據(jù)完成的,但如果 GPT 能夠通過(guò)真實(shí)世界的視頻畫(huà)面看到出錯(cuò)的地方,而不是僅僅從機(jī)器人的日志中讀取執(zhí)行失敗的信息,那么它就能更有效地完善自己的指令。
您可以在這里觀看一段未經(jīng)剪輯的 4 分 33 秒視頻,視頻中機(jī)器人狗狗輕松在瑜伽球上散步,且沒(méi)有停下來(lái)在消防栓上撒尿: