Avec les commandes de commerce électronique qui affluent, un robot d'entrepôt prend des tasses sur une étagère et les place dans des boîtes pour les expédier. Tout bourdonne, jusqu'à ce que l'entrepôt traite un changement et que le robot doive maintenant saisir des tasses plus hautes et plus étroites qui sont stockées à l'envers.
La reprogrammation de ce robot implique d'étiqueter à la main des milliers d'images qui lui montrent comment saisir ces nouvelles tasses, puis d'entraîner à nouveau le système.
Mais une nouvelle technique développée par des chercheurs du MIT ne nécessiterait qu'une poignée de démonstrations humaines pour reprogrammer le robot. Cette méthode d'apprentissage automatique permet à un robot de ramasser et de placer des objets jamais vus auparavant dans des poses aléatoires qu'il n'a jamais rencontrées. En 10 à 15 minutes, le robot serait prêt à effectuer une nouvelle tâche de pick-and-place.
La technique utilise un réseau de neurones spécialement conçu pour reconstruire les formes d'objets 3D. Avec seulement quelques démonstrations, le système utilise ce que le réseau de neurones a appris sur la géométrie 3D pour saisir de nouveaux objets similaires à ceux des démonstrations.
Dans des simulations et à l'aide d'un véritable bras robotique, les chercheurs montrent que leur système peut manipuler efficacement des tasses, des bols et des bouteilles jamais vus auparavant, disposés dans des poses aléatoires, en utilisant seulement 10 démonstrations pour enseigner au robot.
"Notre principale contribution est la capacité générale à fournir beaucoup plus efficacement de nouvelles compétences aux robots qui doivent fonctionner dans des environnements moins structurés où il peut y avoir beaucoup de variabilité. Le concept de généralisation par construction est une capacité fascinante car ce problème est généralement beaucoup plus difficile », explique Anthony Simeonov, étudiant diplômé en génie électrique et informatique (EECS) et co-auteur principal de l'article.
Simeonov a rédigé l'article avec le co-auteur principal Yilun Du, un étudiant diplômé de l'EECS ; Andrea Tagliasacchi, chercheuse scientifique chez Google Brain ; Joshua B. Tenenbaum, professeur de développement de carrière Paul E. Newton en sciences cognitives et calcul au Département des sciences du cerveau et cognitives et membre du Laboratoire d'informatique et d'intelligence artificielle (CSAIL); Alberto Rodriguez, professeur agrégé de la classe de 1957 au Département de génie mécanique; et les auteurs principaux Pulkit Agrawal, professeur au CSAIL, et Vincent Sitzmann, professeur adjoint entrant à l'EECS. La recherche sera présentée à la Conférence internationale sur la robotique et l'automatisation.
Saisir la géométrie
Un robot peut être formé pour ramasser un objet spécifique, mais si cet objet est couché sur le côté (peut-être qu'il est tombé), le robot voit cela comme un scénario complètement nouveau. C'est l'une des raisons pour lesquelles il est si difficile pour les systèmes d'apprentissage automatique de se généraliser à de nouvelles orientations d'objet.
Pour surmonter ce défi, les chercheurs ont créé un nouveau type de modèle de réseau neuronal, un champ de descripteur neuronal (NDF), qui apprend la géométrie 3D d'une classe d'éléments. Le modèle calcule la représentation géométrique d'un élément spécifique à l'aide d'un nuage de points 3D, qui est un ensemble de points de données ou de coordonnées en trois dimensions. Les points de données peuvent être obtenus à partir d'une caméra de profondeur qui fournit des informations sur la distance entre l'objet et un point de vue. Bien que le réseau ait été formé à la simulation sur un vaste ensemble de données de formes 3D synthétiques, il peut être directement appliqué à des objets du monde réel.
L'équipe a conçu le NDF avec une propriété connue sous le nom d'équivariance. Avec cette propriété, si le modèle voit l'image d'une tasse debout, puis montre une image de la même tasse sur le côté, il comprend que la deuxième tasse est le même objet, juste tourné.
"Cette équivariance est ce qui nous permet de gérer beaucoup plus efficacement les cas où l'objet que vous observez est dans une orientation arbitraire", explique Simeonov.
Au fur et à mesure que le NDF apprend à reconstruire les formes d'objets similaires, il apprend également à associer des parties liées de ces objets. Par exemple, il apprend que les anses des tasses sont similaires, même si certaines tasses sont plus hautes ou plus larges que d'autres, ou ont des anses plus petites ou plus longues.
"Si vous vouliez faire cela avec une autre approche, vous devriez étiqueter à la main toutes les pièces. Au lieu de cela, notre approche découvre automatiquement ces pièces à partir de la reconstruction de la forme », explique Du.
Les chercheurs utilisent ce modèle NDF formé pour enseigner à un robot une nouvelle compétence avec seulement quelques exemples physiques. Ils déplacent la main du robot sur la partie d'un objet qu'ils veulent qu'il saisisse, comme le bord d'un bol ou la poignée d'une tasse, et enregistrent les emplacements du bout des doigts.
Parce que le NDF a beaucoup appris sur la géométrie 3D et sur la façon de reconstruire des formes, il peut déduire la structure d'une nouvelle forme, ce qui permet au système de transférer les démonstrations sur de nouveaux objets dans des poses arbitraires, explique Du.
Choisir un gagnant
Ils ont testé leur modèle dans des simulations et sur un véritable bras robotique en utilisant des tasses, des bols et des bouteilles comme objets. Leur méthode a eu un taux de réussite de 85 % sur les tâches de sélection et de placement avec de nouveaux objets dans de nouvelles orientations, tandis que la meilleure base de référence n'a pu atteindre qu'un taux de réussite de 45 %. Le succès signifie saisir un nouvel objet et le placer sur un emplacement cible, comme suspendre des tasses sur un support.
De nombreuses lignes de base utilisent des informations d'image 2D plutôt qu'une géométrie 3D, ce qui complique l'intégration de l'équivariance par ces méthodes. C'est l'une des raisons pour lesquelles la technique NDF a tellement mieux fonctionné.
Bien que les chercheurs aient été satisfaits de ses performances, leur méthode ne fonctionne que pour la catégorie d'objets particulière sur laquelle elle est entraînée. Un robot appris à ramasser des tasses ne pourra pas ramasser des boîtes ou des écouteurs, car ces objets ont des caractéristiques géométriques trop différentes de celles sur lesquelles le réseau a été formé.
"À l'avenir, l'étendre à plusieurs catégories ou abandonner complètement la notion de catégorie serait idéal", déclare Simeonov.
Ils prévoient également d'adapter le système aux objets non rigides et, à plus long terme, de permettre au système d'effectuer des tâches de prélèvement et de placement lorsque la zone cible change.
Ce travail est soutenu, en partie, par la Defense Advanced Research Projects Agency, la Singapore Defence Science and Technology Agency et la National Science Foundation.
###
Écrit par Adam Zewe, Bureau de presse du MIT
Article : "Champs de descripteurs neuronaux : SE(3) - Représentations d'objets équivariants pour la manipulation"
https://arxiv.org/pdf/2112.05124.pdf
Page Web du projet
https://yilundu.github.io/ndf/
Titre de l'article
"Champs de descripteur neuronal : SE(3) - Représentations d'objets équivariants pour la manipulation"