Un artículo reciente encontró que un sistema de inteligencia artificial de código abierto que utiliza una recuperación mejorada puede superar a los modelos de chatbot como el GPT-3.5 de OpenAI.
el papel publicado El 4 de octubre, los investigadores de Nvidia compararon diferentes técnicas para manejar contextos largos en modelos de lenguaje grande (LLM), los principales algoritmos detrás de la IA conversacional actual. Una forma es simplemente expandir la ventana de contexto, permitiendo a LLM «leer» más tokens de texto directamente como entrada y tenerlos en cuenta al producir su salida. El otro enfoque utiliza la recuperación para proporcionar a LLM solo el contexto más relevante de una base de datos grande.
Su mejor enfoque combina las dos tecnologías: un modelo LLaMA de código abierto que contiene 70 mil millones de parámetros con una ventana de contexto ampliada de 32 000 tokens, y se mejora aún más al recuperar segmentos relevantes del corpus. El recuperador proporciona contexto a pedido, en lugar de que LLM tenga que almacenar todo, lo que lo hace más eficiente.
En un conjunto de 7 puntos de referencia para respuestas largas a preguntas y resúmenes, el LLaMA híbrido con recuperación mejorada logró una puntuación promedio de 43,6, superando a GPT-3.5-turbo, que permite 16.000 tokens de contexto (promedio de 42,8). Coincidió con el enorme modelo da Vinci de 175B de parámetros de OpenAI en un subconjunto de 4 tareas.
Los autores sostienen que la recuperación proporciona beneficios significativos incluso cuando los LLM muy grandes ya tienen ventanas contextuales ampliadas. Descubrieron que un LLaMA de 4.000 tokens con recuperación funcionaba de manera similar a un LLaMA no recuperable con 16.000 tokens, aunque era mucho más rápido debido a que tenía menos entradas.
Los investigadores creen que se puede lograr un rendimiento a la par de sistemas comerciales cerrados como ChatGPT combinando modelos de código abierto existentes como LLaMA con técnicas Loopback+. Los resultados sugieren que la integración de la recuperación y el contexto de formato largo es una dirección prometedora para construir una IA más conversacional y de código abierto.
El estudio proporciona evidencia de que con los algoritmos adecuados, la IA de código abierto puede igualar o superar a los chatbots propietarios. Los hallazgos pueden dar forma a cómo los sistemas de IA integran los siguientes modelos que pueden manejar la entrada de texto largo con información adicional relevante e indicar su recuperación como una pieza clave junto con la extensión de la longitud del contexto.
Crédito de imagen destacada: Marcus Winkler; Píxeles; ¡gracias!
More Stories
El código en los datos previos al entrenamiento mejora el rendimiento del LLM en tareas que no son de codificación
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos