Un logro pionero en el campo de la innovación en inteligencia artificial multimedia

(cicerebro/Shutterstock)

El desarrollo de modelos multimedia a gran escala se basa en conjuntos de datos completos que integran imágenes y texto. Estos conjuntos de datos facilitan la creación de modelos avanzados que pueden interpretar y generar contenido en múltiples medios, tal como lo hacen los humanos. Sin embargo, a medida que las capacidades de la IA continúan evolucionando, crece la necesidad de conjuntos de datos diversos y de alta calidad, lo que lleva a los investigadores a explorar enfoques innovadores para recopilar y organizar datos.

La escasez de conjuntos de datos multimodales de código abierto que combinen texto e imágenes se debe a los altos costos, la diversidad limitada de datos y la complejidad que implica recopilar y organizar dichos datos. Como resultado, existen brechas de rendimiento en los modelos de código abierto y propietarios.

Salesforce AI Research aborda la necesidad de conjuntos de datos intermodales más grandes y diversos Lanzamiento MINT-1TAl combinar un billón de símbolos de texto y 3,4 mil millones de imágenes en un formato que imita documentos del mundo real, este conjunto de datos ofrece una herramienta única y valiosa para avanzar en el aprendizaje multimodal en IA. Salesforce afirma que el nuevo conjunto de datos es 10 veces más amplio que otros conjuntos de datos disponibles públicamente.

«La superposición de conjuntos de datos multimodales que presentan secuencias superpuestas de imágenes y texto de forma libre son fundamentales para entrenar modelos multimodales (LMM) a gran escala», explicaron los investigadores en su estudio. Artículo de investigación publicado en arXiv«A pesar del rápido progreso de los LMM de código abierto, sigue habiendo una clara escasez de conjuntos de datos anidados multimodales de código abierto a gran escala».

MINT-1T fue desarrollado por investigadores de la Universidad de Stanford, la Universidad de Texas en Austin, la Universidad de Washington, Salesforce Research y la Universidad de California Berkeley. Los equipos utilizaron un proceso complejo de adquisición, filtrado y deduplicación de datos de conjuntos de datos anteriores disponibles públicamente.

Se analizaron datos de documentos HTML, archivos PDF y hojas ArXix para garantizar una variedad de contenido multimedia. Los filtros avanzados eliminaron datos inapropiados o de baja calidad, mientras que los métodos de deduplicación garantizaron que se eliminaran los datos duplicados.

Otros conjuntos de datos de código abierto, como OBELICS y MMC4, utilizan hasta 115 mil millones de símbolos, una cantidad pequeña en comparación con los billones de símbolos utilizados en MINT-1T. No sólo el tamaño de MINT-1T, sino también la diversidad de sus datos, que abarcan una amplia gama de fuentes, proporciona una amplia base de conocimiento humano para los modelos de IA.

(Lightspring/Shutterstock)

La introducción de MINT-1T representa un importante paso adelante en la promoción del aprendizaje multimodal y proporciona un recurso valioso para que la comunidad estudie y construya modelos multimodales a gran escala. Los investigadores individuales y los equipos pequeños ahora tienen acceso a datos que rivalizan con los de las grandes empresas tecnológicas.

El conjunto de datos MINT-1T también promoverá el desarrollo de diversas aplicaciones de IA, incluidos asistentes virtuales, sistemas de navegación autónomos, reconocimiento de objetos y comprensión de escenas, al proporcionar un conjunto de datos más rico y diverso para la capacitación y el desarrollo.

Si bien el lanzamiento del conjunto de datos MINT-1T puede ser un catalizador para la innovación, también presenta varios obstáculos. El gran tamaño del conjunto de datos MINT-1T significa un mayor potencial para amplificar los problemas de privacidad y los sesgos presentes en los materiales originales. La comunidad de IA debe ser consciente de cómo se utiliza esta herramienta porque puede dar forma al futuro de la IA. Además, deberían considerar el desarrollo de marcos sólidos para abordar estos desafíos.

Las tendencias recientes indican que la IA de código abierto es el futuro de la IA. Esto garantizaría que más personas en todo el mundo tuvieran acceso a los beneficios y oportunidades de la IA. Muchos líderes tecnológicos, incluido Mark Zuckerberg, han indicado que la IA es el futuro de la IA. La IA de código abierto como camino a seguirSin embargo, a medida que más personas obtienen acceso a herramientas avanzadas de IA, las preocupaciones éticas y de responsabilidad sobre quién dirigirá su desarrollo se vuelven cada vez más importantes.

Artículos relacionados

Gretel Open Sources 100.000 scripts de muestra para SQL

Base de datos Rockset Primes de enorme servicio vectorial

Crunchy Data aprovecha todo lo de Postgres

Un logro pionero en el campo de la innovación en inteligencia artificial multimedia

El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación

Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora

Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos

Zac Efron habla tras ser hospitalizado por accidente en una piscina en España – FBC News

Para seguir siendo relevante, un gigante energético español recurre a los residuos

España investiga el vídeo de Katy Perry sobre las dunas de arena protegidas – Sri Lanka Mirror – Derecho a saber. El poder de cambiar

La productora del vídeo musical «Lifetimes» de Katy Perry está bajo investigación en España

Entradas recientes

Páginas

Deja una respuesta Cancelar la respuesta

More Stories