Gente de la Safor

Bienvenidos a Spain News Today.

Investigadores usan inteligencia artificial para identificar materiales similares en fotos |  Noticias del MIT

Investigadores usan inteligencia artificial para identificar materiales similares en fotos | Noticias del MIT

Un robot que manipule objetos mientras trabaja en la cocina, por ejemplo, se beneficiaría al comprender qué elementos están hechos de los mismos materiales. Con este conocimiento, el robot sabrá ejercer una fuerza similar, ya sea que esté recogiendo una pequeña barra de mantequilla de un rincón oscuro del mostrador o una barra entera del interior de un refrigerador bien iluminado.

La identificación de objetos en una escena compuesta por el mismo material, conocida como selección de materiales, es un problema particularmente difícil para las máquinas porque la apariencia del material puede variar ampliamente según la forma del objeto o las condiciones de iluminación.

Los científicos del MIT y Adobe Research han dado un paso para resolver este desafío. Han desarrollado una tecnología que puede identificar todos los píxeles de una imagen que representan un material en particular, que se representan en un píxel especificado por el usuario.

Este método es preciso incluso cuando los objetos tienen diferentes formas y tamaños, y el modelo de aprendizaje automático que desarrollaron no se deja engañar por las sombras o las condiciones de iluminación que pueden hacer que el mismo material se vea diferente.

Aunque entrenaron su modelo usando solo datos «sintéticos», que son generados por una computadora que modifica las escenas 3D para producir muchas imágenes diferentes, el sistema funciona efectivamente en escenas interiores y exteriores reales como nunca antes. El enfoque también se puede utilizar para videos; Una vez que el usuario selecciona un píxel en el primer cuadro, el modelo puede identificar objetos hechos del mismo material a lo largo del resto del video.

Cuatro imágenes mostradas horizontalmente de una persona caminando con equipaje.  Primero, la imagen todavía muestra un punto rojo en el material de los pantalones amarillos.  La segunda y tercera imagen son dibujos animados, pero la tercera imagen muestra pantalones rosas.  Cuarto, la animación de la versión se muestra en monocromo, con el equipaje y los zapatos apenas visibles contra el fondo negro.
La técnica de los investigadores también se puede utilizar para seleccionar material similar en un video. El usuario selecciona un píxel en el primer cuadro (el punto rojo en la imagen del extremo izquierdo en el lienzo amarillo) y el sistema identifica automáticamente los objetos hechos del mismo material a lo largo del resto del video.

Foto: Cortesía de los investigadores

Además de las aplicaciones en la comprensión de escenas para robots, este método puede usarse para editar imágenes o integrarse en sistemas computacionales que infieren parámetros materiales en imágenes. También se puede utilizar para sistemas de recomendación web basados ​​en artículos. (Un comprador podría estar buscando ropa hecha de cierto tipo de tela, por ejemplo).

«Saber con qué materiales interactúas suele ser muy importante. Aunque dos objetos pueden tener el mismo aspecto, pueden tener diferentes propiedades físicas. Nuestro método puede facilitar la selección de todos los demás píxeles de una imagen que están hechos del mismo material». dice. dice Praful Sharma, estudiante graduado en ingeniería eléctrica y ciencias de la computación y autor principal del artículo. papel sobre esta técnica.

Los coautores de Sharma son Julian Philip y Michael Gharbi, científicos investigadores de Adobe Research; Los autores principales son William T. Freeman, profesor de Ingeniería Eléctrica y Ciencias de la Computación de Thomas y Gerd Perkins y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); Fredo Durand, Profesor de Ingeniería Eléctrica y Ciencias de la Computación y miembro de CSAIL; y Valentin Deschaintre, científico investigador de Adobe Research. La investigación se presentará en la conferencia SIGGRAPH 2023.

Nuevo enfoque

Los métodos actuales de selección de materiales tienen dificultades para identificar con precisión todos los píxeles que representan el mismo material. Por ejemplo, algunos métodos se enfocan en objetos completos, pero un solo objeto puede estar hecho de varios materiales, como un sillón de madera y un asiento de cuero. Otros métodos pueden usar una combinación predeterminada de materiales, pero a menudo tienen etiquetas amplias como «madera», a pesar de que hay miles de especies de madera.

En cambio, Sharma y sus colaboradores desarrollaron un enfoque de aprendizaje automático que evalúa dinámicamente todos los píxeles de una imagen para determinar las similitudes físicas entre un píxel seleccionado por el usuario y todas las demás áreas de una imagen. Si la imagen contiene una mesa y dos sillas, y las patas de la silla y el tablero están hechos del mismo tipo de madera, su modelo puede identificar con precisión esas áreas similares.

Antes de que los investigadores pudieran desarrollar un método de IA para aprender a seleccionar materiales similares, tuvieron que superar algunos obstáculos. En primer lugar, no existe un conjunto de datos actual que contenga temas que se hayan etiquetado con la precisión suficiente para entrenar su modelo de aprendizaje automático. Los investigadores presentaron su conjunto de datos sintéticos para escenas interiores, que incluía 50 000 imágenes y más de 16 000 texturas aplicadas aleatoriamente a cada objeto.

«Queríamos un conjunto de datos en el que cada tipo individual de material se caracterizara de forma independiente», dice Sharma.

Con el conjunto de datos sintéticos en la mano, entrenaron un modelo de aprendizaje automático para la tarea de identificar materiales similares en imágenes reales, pero falló. Los investigadores se dieron cuenta de que la culpa era de una distribución cambiante. Esto ocurre cuando el modelo se entrena con datos sintéticos, pero falla cuando se prueba con datos del mundo real que podrían ser muy diferentes del conjunto de entrenamiento.

Para resolver este problema, construyeron su modelo sobre un modelo de visión por computadora previamente probado, que vio millones de imágenes reales. Usaron el conocimiento previo de este modelo haciendo uso de las características visuales que ya habían aprendido.

«En el aprendizaje automático, cuando usa una red neuronal, generalmente aprende la representación y el proceso de resolución de tareas juntos. Hemos resuelto esto. El modelo preentrenado nos brinda la representación, y luego nuestra red neuronal solo se enfoca en resolver la tarea”, dice.

solución de similitud

El modelo de los investigadores convierte las características visuales preseleccionadas comunes en características específicas del material, y lo hace de manera robusta para formas de objetos o diversas condiciones de iluminación.

Cuatro imágenes muestran horizontalmente la fila de fósforos.  Primero, la imagen todavía muestra un punto rojo en la punta del fósforo en el medio.  La segunda y la tercera imagen son animaciones de llamas en lados opuestos a medida que llegan al centro, pero la tercera imagen muestra la coincidencia central en rojo brillante.  En cuarto lugar, se muestra la animación de la versión monocromática, con las llamas apenas visibles sobre el fondo negro.
El sistema que desarrollaron los investigadores para identificar sustancias similares es resistente a los cambios en las condiciones de luz, como se muestra en este ejemplo de cabezas de cerillas encendidas.

Foto: Cortesía de los investigadores

Luego, el modelo puede calcular puntos de similitud física para cada píxel de la imagen. Cuando el usuario hace clic en un píxel, el formulario detecta qué tan cerca parece estar cada píxel de la consulta. Produce un mapa donde cada píxel se clasifica en una escala de 0 a 1 por similitud.

«El usuario simplemente hace clic en un solo píxel y luego el modelo selecciona automáticamente todas las áreas que contienen la misma textura», dice.

Debido a que el modelo genera una puntuación de similitud para cada píxel, el usuario puede ajustar los resultados estableciendo un umbral, como el 90 por ciento de similitud, y recibiendo un mapa de la imagen con esas regiones distintas. El método también funciona con la selección de imágenes cruzadas: el usuario puede seleccionar un píxel en una imagen y encontrar la misma textura en una imagen separada.

Durante los experimentos, los investigadores descubrieron que su modelo podía predecir regiones de una imagen que contenían la misma textura con mayor precisión que otros métodos. Cuando midieron qué tan bien se comparaba la predicción con la verdad del terreno, es decir, las regiones reales de la imagen compuestas del mismo material, coincidió con su modelo con una precisión de hasta el 92 por ciento.

En el futuro, quieren mejorar el modelo para que pueda capturar mejor los detalles finos de los objetos en una imagen, lo que mejoraría la precisión de su enfoque.

«Los materiales enriquecidos contribuyen a la funcionalidad y la belleza del mundo en el que vivimos. Pero los algoritmos de visión por computadora generalmente ignoran los materiales y, en cambio, se enfocan mucho en los objetos. Este documento hace una contribución importante para reconocer materiales en imágenes y videos en una amplia gama de desafíos condiciones”, dice Kavita Bala, decana de la Facultad de Computación y Ciencias de la Información de Cornell Powers y profesora de ciencias de la computación, que no participó en este trabajo. «Esta tecnología puede ser muy beneficiosa tanto para los consumidores como para los diseñadores. Por ejemplo, un propietario puede imaginar lo caras que pueden resultar opciones como volver a tapizar un sofá o cambiar las alfombras de una habitación, y puede tener más confianza en sus elecciones de diseño». sobre estas percepciones.