Una forma en que los científicos entrenan robots y modelos de inteligencia artificial para realizar tareas (como autos sin conductor) es darles una demostración idealizada de qué hacer y pedirles que la imiten. Este proceso, llamado aprendizaje por imitación, es lento y costoso, y los sistemas resultantes a menudo no pueden manejar escenarios más complejos del mundo real.
En cambio, ¿qué pasaría si los investigadores pudieran proporcionar muchas demostraciones imperfectas y hacer que el sistema desarrollara un mejor enfoque? Esta estrategia, llamada aprendizaje por metaimitación, es el foco nuevo proyecto Liderazgo conjunto Sanjiban ChaudharyAnne S., profesora asistente de informática en Cornell College. Powers School of Computing and Information Sciences, junto con Brian Ziebart y Xinhua Zhang de la Universidad de Illinois en Chicago. Recibieron una subvención de casi 1,2 millones de dólares de la Fundación Nacional de Ciencias para apoyar este trabajo durante tres años.
Chowdhury, que dirige el Departamento de Enseñanza y Aprendizaje de Humanos y Robots (salida), utilizará este enfoque para entrenar robots que ayuden a las personas en el hogar para que algún día los robots puedan realizar tareas de manera segura y eficiente, como ir a buscar una lata de sopa de la despensa y calentarla en la estufa.
Para probar esta idea, Choudhary pedirá a varios usuarios que manipulen el robot para realizar una serie de tareas, como abrir un cajón. Algunos guiarán bien al robot, pero otros cometerán errores. A continuación, su grupo desarrollará un algoritmo que intentará superarlos en una serie de objetivos, en lugar de copiar ciegamente las demostraciones, como no abrir el cajón demasiado lentamente o usar demasiada fuerza.
«Nos gustaría ver si el robot aún puede aprender el comportamiento, incluso a partir de estas presentaciones imperfectas, y realizar la tarea muy bien», dijo Chowdhury. Predice que al aprender de varios profesores, una formación diversa hará que los robots sean más eficientes y adaptables.
Lea la historia completa en Sitio web de Cornell Powers CIS.
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos