<button id="80w9o"><object id="80w9o"></object></button>

<rp id="80w9o"><object id="80w9o"><input id="80w9o"></input></object></rp>

  • <button id="80w9o"></button>
  • <dd id="80w9o"><track id="80w9o"></track></dd>
    1. 關閉
      企業動態

      用模擬器訓練機器人抓握,谷歌科學家開辟分揀新思路

      近日,谷歌在博客上公開了高級研究科學家Konstantinos Bousmalis等人的成果&mdash;&mdash;利用虛擬模擬器訓練機器人抓握能力。研究人員設置了36種不同形狀的物體,對一臺協作機器人進行了超過25000次物理測試,成...

      admin

      admin

      發布于 2017-11-03 閱讀:397

             近日,谷歌在博客上公開了高級研究科學家Konstantinos Bousmalis等人的成果——利用虛擬模擬器訓練機器人抓握能力。研究人員設置了36種不同形狀的物體,對一臺協作機器人進行了超過25000次物理測試,成功把訓練次數減少到了現實環境訓練量的1/50。據了解,這個工具無需實際道具輔助,即使是現實世界不存在的物品,機器人都依靠經驗能成功抓取。雖然目前該成果還停留在實驗階段,但考慮到倉儲物流行業近年來對自動化技術需求的爆發性增長,以及AGV等機器人制造商的技術突破需求,這項抓握技術的落地值得期待。
            雖然機器人正依靠它的計算機大腦和“鋼筋鐵骨”代替人類的某部分功能,但即便是最先進的機器人,它們現在也有一些難以逾越的技術鴻溝,比如一些涉及基本感官的能力——抓握。對于人類來說,幾乎每個人都能通過學習更熟練、更穩健地完成復雜的抓取動作,但機器人不行。
             這之中的難點主要有兩個,一是感覺,二是經驗。首先,讓機器人完全模擬人手是不可行的,在裝備上千個精密傳感器的同時保證關節的靈活性,這在技術上暫時無法實現。其次,現在機器人雖然已經具備基礎“學習”能力,但弊端也很突出:訓練耗時久,訓練對象固定,訓練模式單一,即便它們能自主完成一些基本操作,整體水平也還是非常低的。
             幸運的是,現在機器人多了一種新型訓練方法:模擬(simulation)。利用現代的物理模擬、渲染技術和并行計算,在虛擬環境中模擬機器人互動方式是可行的。此外,模擬所得數據會自動生成注釋,這對于實現正確的自主判斷計算尤其重要。
             那為什么大部分實驗室仍在使用原始的模型道具呢?作為一項新技術,模擬訓練所面臨的一大挑戰是無法完美捕捉現實環境,無論是視覺上的而還是物理上的,模擬環境與現實環境存在不小的差異。我們嘗試過把模擬環境設計得更逼真,無論是設計更多仿真物理現象還是創建更多環境因素,但這都無法克服一個困難,即這個模擬器是基于強化學習設計的:機器學習算法越強大,機器人就越容易鉆模擬器的“漏洞”,積累一些不可行的經驗。
             問題1:如何讓機器人利用模擬,學會在現實環境中執行有用的任務?
             解答1:通過現實中不可行的方式完成任務
             問題2:如何讓機器人利用模擬,學會在現實環境中執行有用的任務?
             解答2:通過現實中不可行的方式完成任務
             ……
             (如此循環,模擬器會一直認為“使用現實環境下無法進行的操作完成任務”是一個好解答)
             模擬環境與現實環境的差異一般被稱為“現實差距”(reality gap),這在機器人訓練中起著微妙而重要的作用。“現實差距”最主要的構成因素是視覺感知:模擬圖像需要進一步提高保真度、合成原圖像紋理、調整長寬比,如果是運動的對象,它還要適應不可預知的多樣性變化以彌合模擬器和現實環境的差距。正是由于這些原因,機器人在進行大多數任務時無法用人類的視覺圖像去觀察世界。
            如今,計算機視覺領域已經涌現了一大批工具,可以幫助機器人適應不同像素、色彩、自由空間運動的對象,這些工具大多都使用了機器學習、深度學習的一些內容。而我們在這篇文章中要介紹的是如何使用域自適應學習方法,如機器學習,讓機器人熟練抓取各種物理形狀的對象。

      機器人訓練效果:基于800萬個形狀、數量均勻的真實模擬樣本

             進行模擬前,我們對如何讓機器人抓取它“沒見過”的物體有過討論。谷歌大腦團隊曾和一個發明家團體X's robotics合作過一個項目——讓機器人從一張由單反相機拍攝的圖片中辨認出各種對象,這個項目收集了大量現實數據資料,機器人訓練次數高達幾十萬次,消耗了上千個小時。雖然現有技術可以提高訓練效率,但考慮到現實中的物品會有維護、磨損和破裂,數據搜集工作量會顯著提高。所以正如之前提到的,我們選擇了一種更具吸引力的做法,用現成的模擬器讓機器人學習基本技能,讓它在虛擬世界中“感受”物體。通過模擬,機器人訓練可以多線并行,學習效率大幅提高。
             視頻顯示,實驗共設置了36種不同形狀的物體,研究人員把物體形狀導入模擬器,之后利用渲染技術把圖塊渲染成真實圖像。他們對一臺協作機器人進行了超過25000次物理測試,成功把訓練次數減少到了現實環境訓練量的1/50。
             如果訓練目標是為了彌合現實差距,讓基于視覺進行操作的機器人有更好的發揮,我們認為首先要回答這兩個問題:
             如何設計模擬條件,讓神經網絡認為這是真實的?
             如何整合模擬經驗和顯示經驗,讓成果可以最大限度地轉移到實際操作中?
             這些問題即使對于機器人制造行業也是十分具有挑戰性的,我們研究了一些基于計算機視覺技術抓取不同目標的機器人,并評估了其他模擬設計和經驗整合方法。

      訓練數據集整合了現實經驗和模擬數據

      模擬抓取圖像(左)和現實抓取圖像(右)

             在進行模擬時,我們要做出很多選擇:模擬抓取的對象類型、外觀動態是否隨機、是否需要從模擬器提取更多經驗來幫助抓取……抓取對象是模擬訓練的重要組成部分,而作為仿真環境的組成部分,它們也必須能全方位地模擬現實。隨機生成對象無疑是最合適、最簡便的方法,但我們擔心這不符合現實操作習慣,也不利于經驗學習。于是之后我們考慮過使用ShapeNet這樣的模型庫,并訓練了兩個機器人進行測試。最后,我們發現還是隨機生成對象表現更優,無論是訓練經驗還是現實經驗,它的轉化效果更好,學習效率也更高。

      模擬器中使用的隨機生成對象

      模擬器中使用的ShapeNet對象

      數據集中收錄的現實經驗

             另一個需要考慮的問題是模擬現實環境,在這個問題中,我們還是采用了隨機生成目標的方法。我們從兩個角度評估隨機環境,一是外觀隨機化(隨機改變虛擬環境中可視化組件的紋理),二是動態隨機化(隨機改變目標的材質和摩擦系數)。在訓練中,我們發現外觀隨機化幾乎不對機器人產生影響,而動態隨機化則會出現非常顯著的效果。

      外觀隨機化

             最后,GraspGAN對我們機器人的訓練效果有重要影響。在我們提出的方法之一中,我們利用提取的模擬圖像的語義映射,即模擬圖像中每個像素的描述,將其用于研究我們提出的域適應方法,以產生具有語義意義的實際樣本。
             雖然這項研究僅針對機器人抓握訓練,沒有解決現實差距的所有問題,但我們相信整合現實經驗和模擬數據,在模擬器中進行機器人訓練是未來一個有吸引力的選擇。更重要的是,我們已經廣泛評估了不同數量現實經驗樣本對機器人性能提升產生的不同影響,以及模擬器和域自適應學習方法的不同設計選擇。這種評估方法有望成為從業人員設計機器人的指南,幫助他盡快發現產品的優缺點。

      admin
      admin

      他很懶,什么都沒有留下~