Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre nuestra cobertura de IA líder en la industria. Más información
La arquitectura transformadora es lo que impulsa los modelos de IA públicos y privados más populares de la actualidad. Entonces nos preguntamos: ¿qué pasará después? ¿Es esta la ingeniería que conducirá a pensar mejor? ¿Qué podría venir después de Transformers? Hoy en día, los modelos requieren grandes cantidades de datos, potencia de cálculo de GPU y escaso talento para inyectarles inteligencia artificial. Esto hace que su construcción y mantenimiento sean generalmente costosos.
El despliegue de la IA ha comenzado poco a poco, haciendo que los chatbots simples sean más inteligentes. Ahora, las nuevas empresas y las organizaciones han descubierto cómo empaquetar inteligencia en asistentes que aumentan el conocimiento y las habilidades humanas. El siguiente paso natural es empaquetar elementos como el flujo de trabajo de varios pasos, la memoria y la personalización en agentes que puedan resolver casos de uso en múltiples funciones, incluidas ventas e ingeniería. La expectativa es que un simple mensaje del usuario permita al agente clasificar la intención, dividir el objetivo en múltiples pasos y completar la tarea, ya sea que implique búsquedas en línea, autenticación en múltiples herramientas o aprender de comportamientos repetidos anteriores.
Estos agentes, cuando se aplican a casos de uso de consumidores, comienzan a darnos una sensación de un futuro en el que todos podrán tener un agente personal similar a Jarvis en su teléfono que los entienda. ¿Quiere reservar un viaje a Hawái, pedir comida en su restaurante favorito o gestionar sus finanzas personales? Es posible un futuro en el que usted y yo podamos gestionar estas tareas de forma segura utilizando agentes dedicados, pero desde una perspectiva tecnológica, todavía estamos muy lejos de ese futuro.
¿Es la arquitectura transformadora la última frontera?
El mecanismo de autoatención de la arquitectura del transformador permite que el modelo sopese la importancia de cada símbolo de entrada frente a todos los símbolos en la secuencia de entrada simultáneamente. Esto ayuda a mejorar la comprensión del lenguaje y la visión por computadora del modelo al capturar dependencias a largo plazo y relaciones complejas de símbolos. Sin embargo, esto significa que la complejidad del cálculo aumenta con secuencias largas (por ejemplo, ADN), lo que genera un rendimiento lento y un alto consumo de memoria. Algunas soluciones y heurísticas para resolver el problema de secuencia larga incluyen:
- Convertidores mejorados en dispositivosLa tecnología más prometedora aquí es: flashintEste documento afirma que el rendimiento del conmutador se puede mejorar gestionando cuidadosamente las operaciones de lectura y escritura de diferentes niveles de memoria rápida y lenta en la GPU. Esto se hace haciendo que los algoritmos de atención sean conscientes de E/S, lo que reduce la cantidad de operaciones de lectura/escritura entre la memoria de alto ancho de banda (HBM) de la GPU y la memoria estática de acceso aleatorio (SRAM).
- Interés aproximado: Los mecanismos de autoatención tienen una complejidad de O (n ^ 2), donde n es la longitud de la secuencia de entrada. ¿Hay alguna manera de reducir la complejidad de este cálculo cuadrático a lineal para que los compiladores puedan manejar mejor secuencias largas? Las mejoras aquí incluyen técnicas como reformer, performer, El modelador del cielo Y otros.
Además de estas mejoras para reducir la complejidad de los transformadores, algunos modelos alternativos están desafiando el dominio de los transformadores (pero todavía está en su infancia para la mayoría de ellos):
- modelo de espacio de estados:Esta es una clase de modelos relacionados con redes neuronales recurrentes (RNN) y redes neuronales convolucionales (CNN) que calculan con complejidad computacional lineal o casi lineal para secuencias largas. Modelos de espacio de estados (SSM), por ejemplo Tipo de serpiente venenosa Puede manejar mejor las relaciones a larga distancia, pero está por detrás de Transformers en rendimiento.
Estos métodos de investigación ahora están más allá de los laboratorios universitarios y están disponibles en el dominio público para que cualquiera pueda experimentar con ellos en forma de nuevos modelos. Además, los últimos lanzamientos de modelos pueden informarnos sobre el estado de la tecnología subyacente y el camino viable para las alternativas de transformadores.
Lanzamiento de modelos destacados
Seguimos escuchando sobre los últimos y mejores modelos lanzados por empresas habituales como OpenAI, Cohere, Anthropic y Mistral. Metamodelo básico en Mejorar el compilador Es eficaz para mejorar el código y el compilador.
Además de la arquitectura de transformador dominante, ahora vemos modelos de espacio de estados (SSM) de grado de producción, modelos de transformador SSM híbridos, modelos de mezcla de expertos (MoE) y de composición de expertos (CoE). Estos modelos parecen funcionar bien en múltiples puntos de referencia en comparación con modelos recientes de código abierto. Los modelos que se destacan incluyen:
- Datos BRICS DBRX es de código abierto modelo:Este modelo MoE contiene 132 mil millones de parámetros. Incluye 16 expertos, de los cuales 4 están activos simultáneamente durante la inferencia o el entrenamiento. Admite una ventana de contexto de 32K y el modelo se entrenó en 12 billones de tokens. Otro detalle interesante: se necesitaron 3 meses, 10 millones de dólares y 3072 GPU Nvidia conectadas a través de InfiniBand de 3,2 Tbps para completar la capacitación previa, posterior, evaluación, formación de equipos rojos y optimización del modelo.
- Versión de sistemas SambaNova Samba CoE v0.2:Este modelo CoE consta de cinco expertos en transacciones 7B, de los cuales solo uno está activo en el momento de la inferencia. Todos los expertos son modelos de código abierto y, además de los expertos, el modelo contiene un enrutador. Este dispositivo entiende qué modelo es mejor para una consulta particular y dirige la solicitud a ese modelo. Es extremadamente rápido y genera 330 tokens por segundo.
- Edición de laboratorios AI21 Gamba Es un modelo híbrido entre el Transformer y el modelo Mamba MoE. Es el primer modelo basado en Mamba de producción con elementos de la arquitectura tradicional Transformer. “Los modelos de adaptador tienen dos inconvenientes: en primer lugar, sus elevados requisitos computacionales y de memoria dificultan el procesamiento de contextos largos, donde el tamaño de la caché de valores clave (KV) se convierte en un factor limitante. En segundo lugar, la falta de un estado de suma único conduce a. inferencia lenta y bajo rendimiento, ya que cada código realiza una característica creada al realizar un cálculo en todo el contexto. Los SSM como Mamba pueden manejar mejor las relaciones de largo alcance, pero van a la zaga en rendimiento con respecto a los conmutadores. Jamba compensa las limitaciones inherentes al modelo SSM puro, proporcionando una ventana de contexto de 256 KB y ajustando un contexto de 140 KB en una sola GPU.
Desafíos de la construcción de instituciones
A pesar de la tremenda promesa de las últimas investigaciones y lanzamientos de prototipos para respaldar la ingeniería de transformadores como la próxima frontera, también debemos tener en cuenta los desafíos técnicos que impiden que las empresas puedan aprovecharla:
- Frustraciones por la falta de funciones empresariales: Imagine vender sus productos a altos ejecutivos sin cosas simples como control de acceso basado en roles (RBAC), inicio de sesión único (SSO) o ningún acceso a los registros (ya sean inmediatos o generados). Es posible que los modelos actuales no estén listos para las empresas, pero las empresas están creando presupuestos separados para asegurarse de no perderse el próximo gran avance.
- Romper lo que estaba funcionando: Los asistentes y agentes que utilizan IA hacen que la protección de datos y aplicaciones sea más compleja. Imagine un caso de uso sencillo: la aplicación de videoconferencia que utiliza a diario ofrece funciones de resumen de IA. Como usuario, es posible que le guste la posibilidad de recibir mensajes de texto después de una reunión, pero en industrias reguladas, esta característica mejorada puede convertirse repentinamente en una pesadilla para los CISO. De hecho, lo que ha funcionado bien hasta ahora no funciona y necesita someterse a una revisión de seguridad adicional. Las empresas necesitan implementar barreras de seguridad para garantizar la privacidad de los datos y el cumplimiento cuando las aplicaciones SaaS ofrecen dichas funciones.
- La actual batalla entre RAG y el ajuste fino: Es posible implementar ambos o ninguno sin sacrificar mucho. Se puede pensar en la recuperación de generación aumentada (RAG) como una forma de garantizar que los hechos se presenten correctamente y que la información sea la más actualizada, mientras que se puede considerar que el ajuste fino da como resultado la mejor calidad del modelo. El ajuste fino es difícil, lo que ha llevado a algunos proveedores de modelos a recomendarlo en contra. También implica el desafío del sobreajuste, que afecta negativamente la calidad del modelo. El ajuste fino parece estar bajo presión desde múltiples aspectos: a medida que aumenta la ventana de contexto del modelo y disminuyen los costos del código, RAG puede convertirse en una mejor opción de implementación para las organizaciones. En el contexto de RAG, se lanzó recientemente Modelo Command R+ de Cohere Command R+ es el primer modelo de peso abierto que supera a GPT-4 en el espacio de los chatbots. Command R+ es un modelo de vanguardia mejorado con tecnología RAG diseñado para impulsar flujos de trabajo de nivel empresarial.
Recientemente hablé con un líder de IA en una gran institución financiera que afirmó que el futuro no pertenece a los ingenieros de software sino a los estudiantes creativos de inglés y artes que puedan crear un vector eficaz. Puede que haya algo de verdad en este comentario. Utilizando un diagrama simple y plantillas multimedia, las personas sin conocimientos técnicos pueden crear aplicaciones sencillas sin mucho esfuerzo. Saber cómo utilizar estas herramientas puede ser un superpoder y ayudará a cualquiera que busque sobresalir en su carrera.
Lo mismo ocurre con los investigadores, profesionales y fundadores. Ahora, hay muchas arquitecturas para elegir mientras intentan hacer que sus modelos básicos sean más baratos, más rápidos y más precisos. Hoy en día, existen muchas formas de modificar modelos para casos de uso específicos, incluidas técnicas de ajuste y avances más recientes, como la optimización de preferencias directas (DPO), un algoritmo que puede considerarse una alternativa al aprendizaje reforzado con retroalimentación humana (RLHF).
Con tantos cambios rápidos en el espacio de la IA generativa, puede resultar difícil para los fundadores y compradores priorizar, y estoy ansioso por ver qué sigue cuando cualquiera construye algo nuevo.
Ashish Kakran es director de Proyectos Tomfist Centrarse en invertir en empresas emergentes de computación en la nube, aprendizaje automático/datos y ciberseguridad.
Tomadores de decisiones sobre datos
¡Bienvenido a la comunidad VentureBeat!
DataDecisionMakers es un lugar donde los expertos, incluidos los técnicos que trabajan con datos, pueden compartir ideas e innovaciones relacionadas con los datos.
Si desea leer sobre ideas de vanguardia, información de vanguardia, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.
¡También podrías considerar contribuir con un artículo propio!
Leer más de DataDecisionMakers
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos