
假設你有一個末端類似于人手的機械臂。你已經訓練它的5個指頭學會拿起一把錘子,以及將釘子釘入木板。但現在,你希望一種“二指夾爪”也能完成同樣的任務。為此,科學家創造出了一連串的虛擬機器人來模擬兩種機械臂之間的形態:它會從最初類似于人手的結構緩慢地轉變成一種新的形狀。每一個中間機器人都會通過練習指定的任務,以此調整對應的人工神經網絡(一種計算模型),直到達到閾值成功率。緊接著,這個系統的控制器代碼就會被傳遞給這條“鏈”上的下一個中間機器人。
為了完成從虛擬機器人到目標機器人的轉變,研究團隊創建出了一種共享式樹狀運動鏈(kinematic tree)。其中,一組代表肢體部分的節點被一些代表關節的鏈接器(link)連接了起來。為了將錘擊技能遷移到二指夾爪,這支團隊將原本結構中代表三個指頭的節點的大小和權重都調整為零。對于每一個中間機器人來說,相應指頭的大小和權重就會逐漸變小。
與此同時,控制它們的神經網絡也必須學會作出調整。此外,研究人員還調整了訓練方法,以便使中間機器人之間的變化不會太大也不會太小。
這個由卡內基梅隆大學設計的系統叫作REvolveR(RobotEvolve Robot)。它的表現優于機器學習的基本方法,比如從頭開始訓練目標機器人的方法。在錘擊任務和其他訓練任務(包括移動一個球和打開一扇門)中,為了使機器人夾爪達到90%的成功率,此前最好的替代性訓練方法需要比REvolveR多執行29%~108%的試驗次數,盡管這些替代性方法在訓練過程中提供了更多的信息反饋。接下來,研究人員還使用其他類型的虛擬機器人測試他們的訓練方法。例如,利用這種方法為一個蜘蛛狀機器人添加新的腿部結構,并讓它重新學會爬行。
維塔利·庫林(未參與這項研究)是英國牛津大學的計算機科學家,主要研究機器人和機器學習,他表示:“我認為這是一種非常巧妙的方法。”盡管通過將艱巨的挑戰分解成一系列小的部分,從而使AI能夠在不同的任務之間實現技能遷移的方法并不新鮮,“但在一個機器人與另一個機器人之間進行內插,以此實現技能遷移,這是我以前從未想到的。”