Uma maneira mais fácil de ensinar novas habilidades aos robôs

Com os pedidos de comércio eletrônico chegando, um robô de depósito pega as canecas de uma prateleira e as coloca em caixas para envio. Tudo está funcionando, até que o armazém processa uma mudança e o robô agora deve pegar canecas mais altas e estreitas que são armazenadas de cabeça para baixo.

A reprogramação desse robô envolve rotular manualmente milhares de imagens que mostram como segurar essas novas canecas e, em seguida, treinar o sistema novamente.

Mas uma nova técnica desenvolvida por pesquisadores do MIT exigiria apenas um punhado de demonstrações humanas para reprogramar o robô. Esse método de aprendizado de máquina permite que um robô pegue e coloque objetos nunca antes vistos que estão em poses aleatórias que nunca encontrou. Dentro de 10 a 15 minutos, o robô estaria pronto para realizar uma nova tarefa de pegar e colocar.

A técnica usa uma rede neural projetada especificamente para reconstruir as formas de objetos 3D. Com apenas algumas demonstrações, o sistema usa o que a rede neural aprendeu sobre geometria 3D para captar novos objetos semelhantes aos das demonstrações.

Em simulações e usando um braço robótico real, os pesquisadores mostram que seu sistema pode efetivamente manipular canecas, tigelas e garrafas nunca antes vistas, dispostas em poses aleatórias, usando apenas 10 demonstrações para ensinar o robô.

“Nossa maior contribuição é a capacidade geral de fornecer novas habilidades de maneira muito mais eficiente para robôs que precisam operar em ambientes mais desestruturados, onde pode haver muita variabilidade. O conceito de generalização por construção é uma capacidade fascinante porque esse problema normalmente é muito mais difícil”, diz Anthony Simeonov, estudante de pós-graduação em engenharia elétrica e ciência da computação (EECS) e coautor principal do artigo.

Simeonov escreveu o artigo com o co-autor Yilun Du, um estudante de pós-graduação da EECS; Andrea Tagliasacchi, cientista de pesquisa da equipe do Google Brain; Joshua B. Tenenbaum, professor de Desenvolvimento de Carreira Paul E. Newton de Ciência Cognitiva e Computação no Departamento de Cérebro e Ciências Cognitivas e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); Alberto Rodriguez, Professor Associado da Turma de 1957 do Departamento de Engenharia Mecânica; e os autores seniores Pulkit Agrawal, professor da CSAIL, e Vincent Sitzmann, professor assistente da EECS. A pesquisa será apresentada na Conferência Internacional de Robótica e Automação.

Geometria de apreensão

Um robô pode ser treinado para pegar um item específico, mas se esse objeto estiver caído de lado (talvez tenha caído), o robô vê isso como um cenário completamente novo. Essa é uma das razões pelas quais é tão difícil para os sistemas de aprendizado de máquina generalizar para novas orientações de objeto.

Para superar esse desafio, os pesquisadores criaram um novo tipo de modelo de rede neural, um Neural Descriptor Field (NDF), que aprende a geometria 3D de uma classe de itens. O modelo calcula a representação geométrica de um item específico usando uma nuvem de pontos 3D, que é um conjunto de pontos de dados ou coordenadas em três dimensões. Os pontos de dados podem ser obtidos de uma câmera de profundidade que fornece informações sobre a distância entre o objeto e um ponto de vista. Embora a rede tenha sido treinada em simulação em um grande conjunto de dados de formas 3D sintéticas, ela pode ser aplicada diretamente a objetos no mundo real.

A equipe projetou o NDF com uma propriedade conhecida como equivariância. Com essa propriedade, se for mostrada ao modelo a imagem de uma caneca na vertical, e depois for mostrada a imagem da mesma caneca de lado, ele entende que a segunda caneca é o mesmo objeto, apenas girado.

“Essa equivariância é o que nos permite lidar com muito mais eficiência nos casos em que o objeto que você observa está em alguma orientação arbitrária”, diz Simeonov.

À medida que o NDF aprende a reconstruir formas de objetos semelhantes, ele também aprende a associar partes relacionadas desses objetos. Por exemplo, ele aprende que as alças das canecas são semelhantes, mesmo que algumas sejam mais altas ou mais largas que outras, ou tenham alças menores ou mais longas.

Uma maneira mais fácil de ensinar novas habilidades aos robôs

“Se você quisesse fazer isso com outra abordagem, teria que rotular manualmente todas as partes. Em vez disso, nossa abordagem descobre automaticamente essas partes a partir da reconstrução da forma”, diz Du.

Os pesquisadores usam esse modelo NDF treinado para ensinar uma nova habilidade a um robô com apenas alguns exemplos físicos. Eles movem a mão do robô para a parte de um objeto que desejam segurar, como a borda de uma tigela ou a alça de uma caneca, e registram a localização das pontas dos dedos.

Como o NDF aprendeu muito sobre geometria 3D e como reconstruir formas, ele pode inferir a estrutura de uma nova forma, o que permite ao sistema transferir as demonstrações para novos objetos em poses arbitrárias, explica Du.

Escolhendo um vencedor

Eles testaram seu modelo em simulações e em um braço robótico real usando canecas, tigelas e garrafas como objetos. Seu método teve uma taxa de sucesso de 85 por cento em tarefas de pegar e colocar com novos objetos em novas orientações, enquanto a melhor linha de base só foi capaz de atingir uma taxa de sucesso de 45 por cento. Sucesso significa agarrar um novo objeto e colocá-lo em um local de destino, como pendurar canecas em um rack.

Muitas linhas de base usam informações de imagem 2D em vez de geometria 3D, o que torna mais difícil para esses métodos integrar a equivariância. Esta é uma das razões pelas quais a técnica NDF teve um desempenho muito melhor.

Embora os pesquisadores tenham ficado satisfeitos com seu desempenho, seu método funciona apenas para a categoria de objeto específica na qual é treinado. Um robô ensinado a pegar canecas não será capaz de pegar caixas ou fones de ouvido, pois esses objetos têm características geométricas muito diferentes daquelas com as quais a rede foi treinada.

“No futuro, o ideal seria ampliá-lo para muitas categorias ou abandonar completamente a noção de categoria”, diz Simeonov.

Eles também planejam adaptar o sistema para objetos não rígidos e, a longo prazo, permitir que o sistema execute tarefas de pegar e colocar quando a área de destino mudar.

Este trabalho é apoiado, em parte, pela Defense Advanced Research Projects Agency, pela Singapore Defense Science and Technology Agency e pela National Science Foundation.

###

Escrito por Adam Zewe, MIT News Office

Artigo: "Campos do Descritor Neural: Representações SE(3)-Equivariantes de Objetos para Manipulação"

https://arxiv.org/pdf/2112.05124.pdf

Página do projeto

https://yilundu.github.io/ndf/