Jednodušší způsob, jak naučit roboty novým dovednostem

Když se objednávky z elektronického obchodu hrnou, skladový robot vybírá hrnky z police a vkládá je do krabic k odeslání. Všechno hučí, dokud sklad nezpracuje změnu a robot nyní musí uchopit vyšší, užší hrnky, které jsou uloženy dnem vzhůru.

Přeprogramování tohoto robota zahrnuje ruční označování tisíců obrázků, které mu ukazují, jak uchopit tyto nové hrnky, a poté celý systém znovu trénovat.

Ale nová technika vyvinutá výzkumníky z MIT by vyžadovala jen několik lidských demonstrací k přeprogramování robota. Tato metoda strojového učení umožňuje robotovi zvednout a umístit dosud neviděné předměty, které jsou v náhodných pozicích, s nimiž se nikdy nesetkal. Během 10 až 15 minut by byl robot připraven provést nový úkol typu pick-and-place.

Tato technika využívá neuronovou síť speciálně navrženou k rekonstrukci tvarů 3D objektů. Díky několika ukázkám systém využívá to, co se neuronová síť naučila o 3D geometrii, k uchopení nových objektů, které jsou podobné těm v ukázkách.

V simulacích a pomocí skutečné robotické paže vědci ukazují, že jejich systém dokáže efektivně manipulovat s dosud neviděnými hrnky, mísami a lahvemi, uspořádanými v náhodných pozicích, pomocí pouhých 10 ukázek k výuce robota.

„Naším hlavním přínosem je obecná schopnost mnohem efektivněji poskytovat nové dovednosti robotům, kteří potřebují pracovat v nestrukturovanějších prostředích, kde by mohla být velká variabilita. Koncept zobecnění konstrukcí je fascinující schopnost, protože tento problém je obvykle mnohem těžší,“ říká Anthony Simeonov, postgraduální student elektrotechniky a informatiky (EECS) a spoluautor článku.

Simeonov napsal článek se spoluautorem Yilun Du, postgraduálním studentem EECS; Andrea Tagliasacchi, vědecká pracovnice zabývající se výzkumem ve společnosti Google Brain; Joshua B. Tenenbaum, profesor profesního rozvoje Paula E. Newtona pro kognitivní vědy a výpočty na katedře mozkových a kognitivních věd a člen Laboratoře počítačových věd a umělé inteligence (CSAIL); Alberto Rodriguez, třída 1957 docenta na katedře strojního inženýrství; a hlavní autoři Pulkit Agrawal, profesor CSAIL, a Vincent Sitzmann, nastupující odborný asistent v EECS. Výzkum bude prezentován na Mezinárodní konferenci o robotice a automatizaci.

Uchopení geometrie

Robot může být vycvičen, aby zvedl konkrétní předmět, ale pokud tento předmět leží na boku (možná spadl), robot to vidí jako zcela nový scénář. To je jeden z důvodů, proč je pro systémy strojového učení tak těžké zobecnit nové orientace objektů.

Aby vědci tuto výzvu překonali, vytvořili nový typ modelu neuronové sítě, Neural Descriptor Field (NDF), který se učí 3D geometrii třídy položek. Model počítá geometrickou reprezentaci pro konkrétní položku pomocí 3D mračna bodů, což je sada datových bodů nebo souřadnic ve třech rozměrech. Datové body lze získat z hloubkové kamery, která poskytuje informace o vzdálenosti mezi objektem a bodem pohledu. I když byla síť trénována v simulaci na rozsáhlém datovém souboru syntetických 3D tvarů, lze ji přímo aplikovat na objekty v reálném světě.

Tým navrhl NDF s vlastností známou jako ekvivariance. S touto vlastností, pokud se modelu zobrazí obrázek svislého hrnku a poté se zobrazí obrázek stejného hrnku na jeho straně, rozumí tomu, že druhý hrnek je stejný objekt, jen otočený.

„Tato ekvivariance nám umožňuje mnohem efektivněji řešit případy, kdy je objekt, který pozorujete, v nějaké libovolné orientaci,“ říká Simeonov.

Jak se NDF učí rekonstruovat tvary podobných objektů, učí se také spojovat související části těchto objektů. Například zjistí, že ucha hrnků jsou podobná, i když jsou některé hrnky vyšší nebo širší než jiné nebo mají menší nebo delší ucha.

Nový způsob výuky robotů

„Pokud byste to chtěli udělat jiným způsobem, museli byste ručně označit všechny díly. Místo toho náš přístup automaticky objeví tyto části z rekonstrukce tvaru,“ říká Du.

Výzkumní pracovníci používají tento trénovaný model NDF k tomu, aby naučili robota nové dovednosti pouze na několika fyzických příkladech. Přesunou ruku robota na část předmětu, kterou chtějí, aby ji uchopil, jako je okraj misky nebo rukojeť hrnku, a zaznamenávají umístění konečků prstů.

Protože se NDF naučilo tolik o 3D geometrii a jak rekonstruovat tvary, může odvodit strukturu nového tvaru, což systému umožňuje přenést ukázky na nové objekty v libovolných pozicích, vysvětluje Du.

Výběr vítěze

Svůj model otestovali v simulacích a na skutečné robotické paži pomocí hrnků, misek a lahví jako předmětů. Jejich metoda měla úspěšnost 85 procent v úkolech typu pick-and-place s novými objekty v nové orientaci, zatímco nejlepší základní linie dokázala dosáhnout úspěšnosti pouze 45 procent. Úspěch znamená uchopit nový předmět a umístit jej na cílové místo, jako je zavěšení hrnků na stojan.

Mnoho základních linií používá 2D obrazové informace spíše než 3D geometrii, což těmto metodám ztěžuje integraci ekvivariancí. To je jeden z důvodů, proč technika NDF fungovala mnohem lépe.

I když byli výzkumníci spokojeni s jeho výkonem, jejich metoda funguje pouze pro konkrétní kategorii objektů, na kterých je trénována. Robot, který se naučil sbírat hrnky, nebude schopen sbírat krabice nebo sluchátka, protože tyto objekty mají geometrické rysy, které jsou příliš odlišné od toho, na co byla síť natrénována.

"V budoucnu by bylo ideální rozšířit to na mnoho kategorií nebo úplně opustit pojem kategorie," říká Simeonov.

Plánují také přizpůsobit systém pro netuhé objekty a v dlouhodobém horizontu umožnit systému provádět úkoly typu pick-and-place, když se změní cílová oblast.

Tato práce je částečně podporována Agenturou pro výzkum pokročilých obranných projektů, Singapurskou obrannou vědeckou a technologickou agenturou a Národní vědeckou nadací.

###

Napsal Adam Zewe, MIT News Office

Příspěvek: "Pole neuronových deskriptorů: SE(3)-ekvivariantní reprezentace objektů pro manipulaci"

https://arxiv.org/pdf/2112.05124.pdf

Webová stránka projektu

https://yilundu.github.io/ndf/