Investigadores de Instituto de Tecnología de Massachusetts El Laboratorio de IA Watson del MIT-IBM ha desarrollado un nuevo método para la navegación por IA que convierte datos visuales en descripciones lingüísticas para ayudar a los robots a realizar tareas complejas.
Este enfoque utiliza un modelo de lenguaje grande para generar datos de entrenamiento sintéticos y tomar decisiones de navegación basadas en la entrada del idioma. Aunque no es superior a los modelos basados en imágenes, ofrece la ventaja de consumir menos recursos y ser más fácil de adaptar a diferentes tareas y entornos.
Un día, es posible que desee que su robot doméstico lleve una carga de ropa sucia al piso de abajo y la coloque en la lavadora ubicada en el extremo izquierdo del sótano. El robot deberá combinar sus instrucciones con su retroalimentación visual para determinar qué pasos debe seguir para completar esta tarea.
Para un agente de IA, esto es más fácil decirlo que hacerlo. Los enfoques existentes a menudo utilizan múltiples modelos de aprendizaje automático hechos a mano para manejar diferentes partes de la tarea, cuya construcción requiere una gran cantidad de esfuerzo humano y experiencia. Estos enfoques, que utilizan representaciones visuales para tomar decisiones de navegación directamente, requieren enormes cantidades de datos visuales para el entrenamiento, que a menudo son difíciles de obtener.
Integración de modelos de lenguaje para mejorar la navegación.
Para superar estos desafíos, investigadores del MIT y el Laboratorio de Inteligencia Artificial Watson del MIT-IBM idearon un método de navegación que convierte representaciones visuales en fragmentos de lenguaje, que luego se introducen en un modelo de lenguaje de gran tamaño que cumple con todas las partes de una tarea de navegación de varios pasos. .
En lugar de codificar características visuales a partir de imágenes del entorno del robot como representaciones visuales, lo que requiere muchas operaciones computacionales, su método crea leyendas de texto que describen el punto de vista del robot. Un modelo lingüístico grande utiliza retroalimentación para predecir las acciones que el robot debe realizar para cumplir las instrucciones basadas en el lenguaje del usuario.
Dado que su método solo utiliza representaciones basadas en lenguaje, pueden usar un modelo de lenguaje grande para generar de manera eficiente una gran cantidad de datos de entrenamiento sintéticos.
Aunque este enfoque no es superior a las técnicas que utilizan características visuales, funciona bien en situaciones que carecen de datos visuales suficientes para el entrenamiento. Los investigadores descubrieron que combinar entradas basadas en el lenguaje con señales visuales conducía a un mejor rendimiento de navegación.
“Al utilizar únicamente el lenguaje como representación cognitiva, nuestro enfoque es mucho más sencillo”, dice Bowen Pan, estudiante de posgrado en ingeniería eléctrica e informática y autor principal de un artículo sobre este enfoque, “Dado que toda la información puede codificarse. Como lenguaje, podemos crear un camino que pueda «que el hombre entienda».
Los coautores de Ban incluyen a su asesora Aud Oliva, directora de participación estratégica de la industria en la Escuela de Computación Schwarzman del MIT, directora del Laboratorio de Inteligencia Artificial Watson del MIT-IBM y científico investigador senior en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSIL); Philippe Isola, profesor asociado de la EECS y miembro de CSAIL; El autor principal, Yoon Kim, profesor asistente de EECS y miembro de CSAIL; y otros en el MIT-IBM Watson AI Lab y Dartmouth College. La investigación se presentará en la conferencia del Capítulo Norteamericano de la Asociación de Lingüística Computacional.
Resolviendo el problema de la visión con el lenguaje.
Dado que los modelos de lenguaje grandes son los modelos de aprendizaje automático más poderosos disponibles, los investigadores buscaron incorporarlos en la compleja tarea conocida como navegación visual y lingüística, dice Pan.
Sin embargo, dichos modelos reciben información textual y no pueden procesar datos visuales de la cámara del robot. Entonces, el equipo tuvo que encontrar una manera de utilizar el lenguaje.
Su tecnología se basa en un modelo de traducción simple para obtener descripciones textuales de la retroalimentación visual del robot. Estos subtítulos se combinan con instrucciones basadas en el lenguaje y se introducen en un gran modelo lingüístico, que decide qué paso de navegación debe tomar el robot a continuación.
El modelo de lenguaje grande genera una anotación de la escena que el robot debería ver después de completar este paso. Esto se utiliza para actualizar el historial para que el robot pueda rastrear dónde ha estado.
Diseño de un sistema de navegación inteligente y fácil de usar.
El modelo repite estos procesos para crear un camino que guía al robot hacia su objetivo, paso a paso.
Para simplificar el proceso, los investigadores diseñaron plantillas para que la información de monitoreo se presente al modelo en una forma estándar, como una serie de elecciones que el robot puede tomar en función de su entorno.
Por ejemplo, un título podría decir «A su izquierda, en un ángulo de 30 grados, hay una puerta con una maceta al lado, y a su espalda hay un pequeño escritorio con un escritorio y una computadora», y así sucesivamente. El modelo elige si el robot debe moverse hacia la puerta o hacia el escritorio.
«Uno de los mayores desafíos fue descubrir cómo codificar este tipo de información en un lenguaje de manera adecuada para que el agente entendiera cuál era la tarea y cómo debía responder», dice Pan.
Beneficios del idioma
Cuando probaron este enfoque, aunque no podía superar a las técnicas de visión, descubrieron que ofrecía varias ventajas.
En primer lugar, dado que el texto requiere menos recursos computacionales para sintetizarse que los datos de imágenes complejos, su método se puede utilizar para generar rápidamente datos de entrenamiento sintéticos. En una prueba, crearon 10.000 caminos sintéticos basados en 10 caminos visuales reales.
Esta tecnología también puede cerrar la brecha que puede impedir que un agente entrenado en un entorno simulado se desempeñe bien en el mundo real. Esta brecha ocurre a menudo porque las imágenes generadas por computadora pueden verse muy diferentes de las escenas del mundo real debido a elementos como la iluminación o el color. Pero Pan dice que el lenguaje que describe una imagen falsa versus una real sería muy difícil de diferenciar entre ellas.
Además, las representaciones utilizadas por su modelo son más fáciles de entender para los humanos porque están escritas en lenguaje natural.
«Si un cliente no logra su objetivo, podemos determinar más fácilmente dónde falló y por qué. Tal vez la información del historial no sea lo suficientemente clara o la nota omita algunos detalles importantes», dice Pan.
Además, su método se puede aplicar más fácilmente a diversas tareas y entornos porque utiliza un solo tipo de entrada. Siempre que los datos puedan codificarse como un idioma, pueden utilizar el mismo formato sin realizar ninguna modificación.
Pero un inconveniente es que su método naturalmente omite cierta información que pueden capturar los modelos basados en la visión, como la información de profundidad.
Sin embargo, los investigadores se sorprendieron al ver que la combinación de representaciones basadas en el lenguaje con métodos basados en la visión mejoraba la capacidad del agente para navegar.
«Esto puede significar que el lenguaje es capaz de capturar información de nivel superior que no se puede capturar utilizando características visuales puras», dice.
Esta es un área que a los investigadores les gustaría explorar más a fondo. También quieren desarrollar un software de traducción orientado a la navegación que mejoraría el rendimiento de este método. Además, les gustaría explorar la capacidad de los modelos lingüísticos a gran escala para demostrar conciencia espacial y ver cómo esto podría ayudar a la navegación basada en el lenguaje.
Referencia: “LangNav: el lenguaje como representación perceptual para la navegación” por Bowen Pan, Rameswar Panda, So Young Jin, Rogerio Ferris, Odd Oliva, Felipe Isola y Yun Kim, 30 de marzo de 2024. Ciencias de la Computación > Visión por computadora y reconocimiento de patrones.
arXiv:2310.07889
Esta investigación fue financiada, en parte, por el Laboratorio de IA Watson del MIT-IBM.
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos