在Time-Contrastive Networks: Self-Supervised Learning from Multi-View Observation這篇論文中,谷歌的研究者提出了一種從觀察中學(xué)習(xí)世界的新方法,并多角度展示了機(jī)器人僅僅通過(guò)觀看視頻,就能在無(wú)人監(jiān)督的情況下,模擬視頻動(dòng)作的全過(guò)程。
除了視頻演示之外,谷歌大腦并未對(duì)機(jī)器人系統(tǒng)提供監(jiān)督學(xué)習(xí)。他們將這種方法運(yùn)用于各種不同的任務(wù),以此來(lái)訓(xùn)練真實(shí)和虛擬機(jī)器人。例如,倒水任務(wù),放碟任務(wù),和姿勢(shì)模仿任務(wù)。
第一步
通過(guò)視頻的分解鏡頭來(lái)學(xué)習(xí),將時(shí)間作為監(jiān)督信號(hào),發(fā)現(xiàn)視頻的不同屬性。這組嵌入向量經(jīng)由一組非結(jié)構(gòu)化和未標(biāo)記的視頻訓(xùn)練,里面含有和任務(wù)相關(guān)的有效動(dòng)作,也有一些隨機(jī)行為,來(lái)體現(xiàn)真實(shí)世界中的各種可能狀態(tài)。
模型使用triplet loss誤差函數(shù),基于同一幀的多視角觀察數(shù)據(jù)來(lái)訓(xùn)練多視角下同時(shí)出現(xiàn)的幀,在嵌入空間中互相關(guān)聯(lián)。當(dāng)然也可以考慮一個(gè)時(shí)間對(duì)比模型,只根據(jù)單一視角來(lái)訓(xùn)練。這一次,有效幀在錨點(diǎn)的一定范圍內(nèi)隨機(jī)選定,根據(jù)有效范圍計(jì)算邊際范圍。無(wú)效范圍是在邊際范圍外隨機(jī)選定。模型和之前一樣進(jìn)行訓(xùn)練。
第二步
通過(guò)強(qiáng)化學(xué)習(xí)來(lái)學(xué)習(xí)規(guī)則?;赥CN嵌入,根據(jù)第三方的真人示范來(lái)構(gòu)造獎(jiǎng)勵(lì)函數(shù)。機(jī)械臂起初嘗試一些隨機(jī)動(dòng)作,然后學(xué)會(huì)反復(fù)進(jìn)行這些動(dòng)作,就可以產(chǎn)生最高獎(jiǎng)勵(lì)的控制步驟,最后達(dá)成重現(xiàn)視頻任務(wù)的效果。
模型在僅僅經(jīng)歷了9次迭代后就成功收斂,大約相當(dāng)于現(xiàn)實(shí)世界15分鐘的訓(xùn)練。同樣地,在移碟任務(wù)中,機(jī)器人最初嘗試隨機(jī)運(yùn)動(dòng),然后學(xué)會(huì)成功拿起和移動(dòng)一個(gè)盤(pán)子。
上一篇:搬運(yùn)分揀機(jī)器人,探究新階段我國(guó)鋰電行業(yè)對(duì)機(jī)器人的需求狀況
下一篇:探索未來(lái)機(jī)器人的技術(shù)和功能|無(wú)人機(jī)|人工智能|智能機(jī)器人|工業(yè)機(jī)器人|人形機(jī)器人