Cuando se trata de tareas de procesamiento de lenguaje natural (NLP), los modelos grandes de lenguaje (LLM) entrenados en grandes conjuntos de datos en línea funcionan excepcionalmente bien. El Segment Anything Model (SAM) ha demostrado impresionantes capacidades de localización en visión por computadora (CV) al escalar los datos.
Desafortunadamente, SAM no puede producir etiquetas semánticas, que es una tarea igualmente esencial con la traducción. Reconocer múltiples etiquetas para una sola imagen es el objetivo del reconocimiento de imágenes de múltiples etiquetas, también conocido como etiquetado de imágenes. Debido a que las imágenes tienen diferentes etiquetas, incluidos objetos, escenas, propiedades y actividades, el etiquetado de imágenes es un problema de visión artificial importante y útil.
Hay dos factores principales que dificultan el etiquetado de imágenes de la siguiente manera:
- Amplia gama de datos de alta calidad. Todavía falta un motor de anotación de datos efectivo que pueda anotar de forma semiautomática o automática grandes cantidades de imágenes en diferentes categorías, como es el caso con un sistema de etiquetado estándar y completo.
- No hay suficientes vocabularios abiertos y modelos robustos creados con un diseño de modelo eficiente y flexible que aproveche los datos a gran escala y mal moderados.
El modelo Recognition Anything (RAM) es un poderoso modelo básico para el etiquetado de imágenes, que acaba de ser presentado por investigadores del Instituto de Investigación OPPO, la Academia Internacional de Economía Digital (IDEA) y AI2 Robotics. Cuando se trata de datos, la RAM puede superar problemas como esquemas de etiquetado inapropiados, conjuntos de datos insuficientes, motores de datos ineficientes y limitaciones arquitectónicas.
Los investigadores comienzan estableciendo una convención de nomenclatura global estándar. Utilizan conjuntos de datos académicos (clasificación, detección y segmentación) y marcas registradas (Google, Microsoft y Apple) para enriquecer su sistema de etiquetado. Al combinar todas las etiquetas genéricas disponibles y las etiquetas de texto comunes, el método de etiquetado produce 6449 etiquetas que abordan colectivamente la gran mayoría de los casos de uso. Los investigadores afirmaron que es posible identificar las etiquetas de vocabulario abierto restantes mediante el reconocimiento abierto.
Hacer anotaciones en fotos de gran tamaño con el sistema automático de pegatinas es un trabajo duro. El enfoque propuesto para el etiquetado de imágenes está inspirado en trabajos anteriores en este campo, que utiliza pares de imagen-texto genéricos a gran escala para entrenar modelos visuales robustos. Para hacer un buen uso de estas grandes cantidades de datos de texto de imágenes para el etiquetado, el equipo utilizó el análisis semántico automático del texto para extraer etiquetas de imágenes. Con este método, pueden obtener un gran conjunto de etiquetas de imagen basadas en pares de imagen y texto sin depender de las anotaciones manuales.
Las combinaciones de imágenes y texto de fuentes de Internet tienden a ser imprecisas debido al ruido aleatorio. El equipo está creando un motor de etiquetado de datos para mejorar la precisión de las anotaciones. Para resolver el problema de las etiquetas que faltan, adoptan modelos preexistentes para producir etiquetas complementarias. Cuando se trata de regiones mal etiquetadas, señalan ciertas secciones dentro de la imagen que están asociadas con etiquetas distintas. Luego, usan el método de agregación de regiones para encontrar y eliminar las anomalías dentro de la misma clase. Además, las etiquetas que hacen predicciones inconsistentes también se eliminan para una anotación más precisa.
RAM permite la generalización a nuevas clases al agregar contexto semántico a las búsquedas de nombres. Las capacidades de limitación de RAM se pueden aumentar con esta arquitectura modelo para cualquier conjunto de datos visuales, lo que demuestra su versatilidad. Al mostrar que un modelo genérico entrenado con datos ruidosos y sin anotaciones puede superar a los modelos muy supervisados, RAM introduce un nuevo paradigma para el etiquetado de imágenes. La RAM requiere un conjunto de datos anotado, gratuito y disponible públicamente. La versión más potente de RAM solo debe entrenarse durante tres días en ocho GPU A100.
Según el equipo, se pueden realizar mejoras en la memoria RAM. Esto incluye ejecutar múltiples iteraciones del motor de datos, aumentar los parámetros de la columna vertebral para mejorar la capacidad del modelo y expandir el conjunto de datos de entrenamiento más allá de 14 millones de imágenes para cubrir mejor diversas regiones.
escanear el papelY proyectoY Y github. No olvides unirte Sub Reddit de 23k+MLY canal de discordiaY Y Boletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos hemos perdido algo, no dude en enviarnos un correo electrónico a [email protected]
🚀 Echa un vistazo a las herramientas de IA de 100 en el club de herramientas de IA
Tanushree Shenwai es aprendiz de consultoría en MarktechPost. Actualmente está cursando su Licenciatura en Tecnología del Instituto Indio de Tecnología (IIT), Bhubaneswar. Le apasiona la ciencia de datos y tiene un gran interés en el ámbito de aplicación de la inteligencia artificial en varios campos. Le apasiona explorar nuevos desarrollos en tecnologías y sus aplicaciones en el mundo real.
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos