Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre nuestra cobertura de IA líder en la industria. Más información
Los modelos de lenguaje grandes a menudo se entrenan previamente en enormes conjuntos de datos que contienen una combinación de texto y código. Si bien el código es esencial en el entrenamiento de modelos diseñados para tareas de programación, cada vez es más común incluirlo en los datos previos al entrenamiento de modelos que no están destinados explícitamente a la generación de código.
en nuevo papelinvestigadores en adherirse Investigaron sistemáticamente el efecto de los datos de código en la formación previa de LLM sobre el rendimiento general más allá de las tareas de codificación.
«Si bien ha habido consenso entre los profesionales en que los datos del código desempeñan un papel vital en el desempeño del LLM, ha habido un trabajo limitado que analiza el impacto preciso del código en las tareas que no son de código», escribieron los investigadores.
Sus hallazgos muestran que el código juega un papel crucial en la mejora del desempeño de los estudiantes de LLM en una amplia gama de tareas. La forma en que llegaron a estos hallazgos también es importante y podría tener implicaciones para la capacitación de estudiantes de LLM para aplicaciones del mundo real.
Investigar el impacto del código.
Para comprender el impacto del código en el rendimiento general de LLM, los investigadores realizaron una serie de experimentos. Tomaron en cuenta varios factores, incluida la cantidad de código en los datos de entrenamiento, dónde se agrega el código durante el proceso de entrenamiento, la calidad del código y el tamaño de los modelos.
Los investigadores utilizaron un proceso de formación en dos etapas. Primero, realizaron un «entrenamiento previo continuo» en el que tomaron modelos previamente entrenados y continuaron entrenándolos en nuevos conjuntos de datos con diferentes proporciones de texto y símbolo para un número fijo de símbolos. Luego utilizaron una fase de «enfriamiento», dando mayor peso a conjuntos de datos de mayor calidad durante las etapas finales del entrenamiento.
El modelo base se entrenó únicamente con texto. También probaron modelos que fueron entrenados previamente con un conjunto de datos equilibrado de código y texto primero y luego entrenados adicionalmente con datos de texto durante una fase de entrenamiento previo en curso. También tenían un conjunto de modelos que fueron entrenados previamente solo con datos de código y posteriormente entrenados con texto.
Los investigadores evaluaron el rendimiento de los modelos en diferentes escalas, desde 470 millones hasta 2.800 millones de parámetros. Utilizaron una variedad de puntos de referencia que miden las capacidades de los modelos para conocer el mundo, razonar en lenguaje natural y ejecutar código.
Beneficios de usar código para tareas que no son de programación
Los experimentos revelaron que el código mejora constantemente el desempeño de los estudiantes de LLM en tareas no relacionadas con el código.
En tareas de razonamiento en lenguaje natural, los modelos entrenados en código superaron consistentemente a los modelos de solo texto. Curiosamente, los investigadores descubrieron que el entrenamiento previo del modelo con 100% de datos de código dio como resultado el mejor rendimiento en estos puntos de referencia.
«Esto muestra que la inicialización a partir de un modelo previamente entrenado con una combinación de código tiene un fuerte efecto positivo en las tareas de inferencia del lenguaje de programación», escribieron los investigadores.
Para las tareas de conocimiento global, una combinación equilibrada de código y texto en los datos previos al entrenamiento produjo el mejor rendimiento. «El rendimiento en tareas de conocimiento global parece depender de una combinación de datos más equilibrada de preparación y una mayor proporción de texto en la fase de preentrenamiento en curso», sugieren los investigadores.
En tareas generativas, tanto el modelo de solo código como el modelo equilibrado superaron al modelo de solo texto, lo que confirma que los datos de código en la combinación previa al entrenamiento «no solo mejoran el razonamiento, sino que también ayudan al modelo a producir generaciones de mejor calidad».
Los investigadores también notaron que las ganancias de rendimiento resultantes de agregar código a los datos previos al entrenamiento aumentaron a medida que aumentaba el tamaño del modelo. Las mejoras fueron particularmente notables en el conocimiento global y el rendimiento del código, seguidas de ganancias modestas en el razonamiento del lenguaje natural.
«Estos resultados muestran que el equilibrio entre las tareas del lenguaje natural y la generación de código aumenta con el tamaño del modelo», escriben los investigadores.
Vale la pena señalar que los modelos LLM a menudo muestran un comportamiento emergente a escalas muy grandes, y las tendencias observadas en el estudio pueden cambiar en decenas o cientos de miles de millones de parámetros. Debido a limitaciones de costos, los investigadores no pudieron probar los efectos de sus experimentos a escalas muy grandes. Sin embargo, son optimistas en cuanto a que sus resultados serán válidos para modelos más grandes.
«Dado que nuestros resultados oscilan entre 470 millones y 2.800 millones, creemos que deberían ser válidos para modelos de mayor tamaño y presupuestos de código», escribieron.
Los investigadores también descubrieron que agregar código sintético de alta calidad a los datos previos al entrenamiento mejoraba significativamente el rendimiento. Esto es particularmente útil porque no depende de código generado por humanos, cuya cantidad es limitada.
«Nuestras declaraciones de código sintético se generaron utilizando declaraciones de problemas que se han utilizado para crear soluciones Python y han sido verificadas formalmente», dijo a VentureBeat Virat Ariyabhumi, investigador de Cohere For AI y autor principal del artículo. «Esta es una enorme tendencia con potencial futuro, y el criterio clave que los profesionales deben tener en cuenta si quieren aprovechar los datos del código sintético es utilizar un modelo tutor de alto rendimiento para generar los datos del código».
También descubrieron que agregar datos adyacentes al código, como solicitudes de extracción y confirmaciones de GitHub, puede mejorar las capacidades de los modelos en tareas de inferencia.
La incorporación de código en la fase de enfriamiento de la capacitación resultó en mejoras adicionales en el desempeño del LLM en varias tareas no relacionadas con el código. Este hallazgo podría ser relevante para las organizaciones, que tienen más probabilidades de ajustar los modelos utilizando sus datos en lugar de entrenar sus propios modelos desde cero.
«La fase de enfriamiento es probablemente la más cercana al ajuste en términos de costo, calidad de los datos y recursos necesarios», dijo Ariyabumi. «Proporciona ganancias significativas, por lo que, independientemente de la fase de capacitación, recomendamos incluir código en la combinación de capacitación. .” «Esperamos que la inclusión de código de alta calidad (como el de las bases de código internas y los datos adyacentes al código) proporcione una mejora durante el período de recuperación».
Dado que Cohere se centra en ofrecer programas LLM para aplicaciones empresariales, será interesante ver cómo estos resultados impactan el lanzamiento de sus modelos y productos en el futuro. Por ejemplo, una empresa podría proporcionar un conjunto más amplio de modelos previamente entrenados en diferentes combinaciones de código y script, cada uno de ellos adaptado a diferentes tipos de tareas. Luego, las empresas pueden ajustar estos modelos a sus propios datos para obtener el mejor rendimiento para un tipo específico de aplicación.
«Esperamos que los hallazgos de nuestra investigación sean de verdadera relevancia para los desarrolladores y conduzcan a modelos con mayor rendimiento», dijo Ariyabumi. «Lo sorprendente de lo que hemos descubierto es que el código mejora el rendimiento fuera de las tareas de código y realmente informa cómo trabajamos». pensar en formar modelos modernos”.
«Defensor de la Web. Geek de la comida galardonado. Incapaz de escribir con guantes de boxeo puestos. Apasionado jugador».
More Stories
Un marco para resolver ecuaciones diferenciales parciales equivalentes puede guiar el procesamiento y la ingeniería de gráficos por computadora
Epiroc ha lanzado una nueva plataforma de perforación de producción de pozos largos
Bookshop.org lanza un programa de recompra de libros usados libros