Gente de la Safor

Bienvenidos a Spain News Today.

Neurbis 2022 | MIT & Meta permite que los optimizadores de relación de gradiente ajusten automáticamente sus hiperparámetros

La mayor parte del entrenamiento de redes neuronales profundas se basa en gran medida en el descenso de gradiente, pero elegir el tamaño de paso óptimo para el optimizador es un desafío porque implica un trabajo manual tedioso y propenso a errores.

En NeurIPS 2022 Papel Distinguido Regresión graduada: el potenciador definitivoLos investigadores de MIT CSAIL y Meta presentan una nueva técnica que permite a los optimizadores de descenso de gradiente como SGD y Adam ajustar automáticamente los hiperparámetros. El método no requiere diferenciación manual y se puede apilar iterativamente en varios niveles.

El equipo aborda las limitaciones del optimizador de regresión anterior al habilitar la diferenciación automática (AD), que ofrece tres ventajas principales:

  1. AD calcula automáticamente las derivadas enteras sin ningún esfuerzo humano adicional.
  2. Naturalmente, se generaliza a otros hiperparámetros (como el coeficiente de impulso) de forma gratuita.
  3. AD se puede aplicar no solo a la optimización de hiperparámetros, sino también a hiperparámetros, optimización de hiperparámetros, etc.

Para habilitar el cálculo automático de gradientes hiperparamétricos, el equipo primero «separa» los pesos del gráfico de cálculo antes de la siguiente iteración del algoritmo de descenso de gradiente, que transforma los pesos en hojas de gráficos al eliminar los bordes entrantes. Este enfoque evita que el gráfico aritmético crezca con cada paso, lo que da como resultado un tiempo al cuadrado y un entrenamiento duro.

El equipo también permite la retropropagación para depositar gradientes con respecto a los pesos y el tamaño del paso al no separar el tamaño del paso del gráfico, sino separar a los padres. Esto conduce a un algoritmo de hiperoptimización completamente automatizado.

READ  Intel Core i9-12900K CPU modular de 16 núcleos Alder Lake en la placa base WIFI para juegos ASUS ROG STRIX Z690-E, más rápida que Core i9-11900K

Para habilitar automáticamente los gradientes computacionales a través de AD, los investigadores con frecuencia alimentan HyperSGD como optimizador a un optimizador de siguiente nivel, HyperSGD. AD se puede aplicar de esta manera a hiperparámetros, hiperhiperparámetros, hiperhiperhiperparámetros, etc. A medida que crecen estas torres de optimización, se vuelven menos sensibles a la selección inicial de hiperparámetros.

En su estudio experimental, el equipo aplicó SGD sobreoptimizado a optimizadores populares como Adam, AdaGrad y RMSProp. Los resultados muestran que el uso de SGD excesivamente optimizado mejora el rendimiento de referencia por márgenes significativos.

Este trabajo presenta una técnica eficiente que permite a los optimizadores de linaje de degradado ajustar automáticamente sus parámetros de hipervínculo y se pueden apilar iterativamente en varios niveles. Se proporciona una implementación de PyTorch del algoritmo AD para la hoja en el proyecto github.

el papel Regresión graduada: el potenciador definitivo correr AbrirRevisión.


autor: Hécate es | editor: Michael Sarrazín


Sabemos que no quiere perderse ninguna noticia o descubrimiento de investigación. Suscríbete a nuestro popular boletín Sincronización global de IA semanal Para actualizaciones semanales de IA.