Los modelos de referencia son modelos masivos de aprendizaje profundo que están previamente entrenados con una gran cantidad de datos públicos sin etiquetar. Se puede aplicar a una variedad de tareas, como crear imágenes o responder preguntas de los clientes.
Pero estos modelos, que forman la columna vertebral de poderosas herramientas de inteligencia artificial como ChatGPT y DALL-E, pueden proporcionar información incorrecta o engañosa. En una situación crítica para la seguridad, como cuando un peatón se acerca a un vehículo autónomo, estos errores podrían tener graves consecuencias.
Para ayudar a prevenir tales errores, investigadores del MIT y del Laboratorio de IA Watson del MIT-IBM Desarrollar una técnica Estimar la confiabilidad de los modelos de referencia antes de implementarlos para una tarea específica.
Lo hacen entrenando un conjunto de modelos básicos que difieren ligeramente entre sí. Luego utilizan su algoritmo para evaluar la coherencia de las representaciones que cada modelo aprende sobre el mismo punto de datos de prueba. Si las representaciones son consistentes, entonces el modelo es confiable.
Cuando compararon su técnica con los métodos de referencia más modernos, obtuvieron mejores resultados a la hora de captar la fiabilidad de los modelos de referencia en una variedad de tareas de clasificación.
Cualquiera puede utilizar esta técnica para determinar si un modelo debe aplicarse en un entorno determinado, sin tener que probarlo en un conjunto de datos real. Esto puede resultar especialmente útil cuando los conjuntos de datos no están disponibles debido a cuestiones de privacidad, como en entornos sanitarios. Además, esta técnica se puede utilizar para clasificar modelos según puntuaciones de confiabilidad, lo que permite al usuario elegir el mejor modelo para su tarea.
«Todos los modelos pueden estar equivocados, pero los modelos que saben cuándo están equivocados lo son. «El problema de determinar la incertidumbre o la confiabilidad se vuelve más difícil para estos modelos básicos porque sus representaciones abstractas son difíciles de comparar. Nuestro método le permite medir la confiabilidad de los representación del modelo para cualquier dato de entrada dado».
me he unido papel de trabajo Escrito por el autor principal Young-Jin Park, estudiante de posgrado del MIT y del IBM AI Institute; Hao Wang, científico investigador del Laboratorio de IA Watson del MIT e IBM; y Shervin Ardashir, investigador científico senior de Netflix. El trabajo de investigación se presentará en la conferencia Uncertainty in Artificial Intelligence.
Calcular consenso
Los modelos tradicionales de aprendizaje automático están entrenados para realizar una tarea específica. Estos modelos suelen hacer una predicción concreta basada en datos de entrada. Por ejemplo, un modelo podría indicarle si una imagen concreta contiene un gato o un perro. En este caso, evaluar la confiabilidad puede ser simplemente una cuestión de observar la predicción final para ver si el modelo es correcto.
Pero los modelos de fundación son diferentes. El modelo está preentrenado utilizando datos públicos, en un entorno donde sus creadores no conocen todas las tareas posteriores a las que se aplicará. Los usuarios lo adaptan a sus tareas específicas después de entrenarlo.
A diferencia de los modelos tradicionales de aprendizaje automático, los modelos básicos no proporcionan resultados tangibles como etiquetas de «gato» o «perro». En cambio, generan una representación abstracta basada en un punto de datos de entrada.
Para evaluar la confiabilidad del modelo de referencia, los investigadores utilizaron un enfoque de agrupamiento entrenando varios modelos que comparten muchas características pero que difieren ligeramente entre sí.
«Nuestra idea es como un cálculo de consenso», dice Park. «Si todos estos modelos básicos proporcionan representaciones consistentes de cualquier dato en nuestro conjunto de datos, entonces podemos decir que este modelo es confiable».
Pero se enfrentaron a un problema: ¿cómo podían comparar representaciones abstractas?
«Estos modelos simplemente producen un vector que consta de algunos números, por lo que no podemos compararlos fácilmente», añade.
Resolvieron este problema utilizando una idea llamada consistencia viva.
Según su enfoque, los investigadores preparan un conjunto de puntos de referencia confiables para probar en un conjunto de modelos. Luego, para cada modelo, examinan los puntos de referencia ubicados cerca de la representación del modelo del punto de prueba.
Al observar la consistencia de los puntos vecinos, pueden estimar la confiabilidad de los modelos.
Alinear representaciones
Los modelos básicos trazan puntos de datos en lo que se conoce como espacio de representación. Una forma de pensar en este espacio es como una esfera. Cada modelo traza puntos de datos idénticos para la misma parte de su pelota, por lo que aparecen imágenes de gatos en un lugar y de perros en otro.
Pero cada modelo mapeará animales de manera diferente en su propio dominio, de modo que mientras los gatos podrían agruparse cerca del Polo Sur para un dominio, otro modelo podría mapear gatos en algún lugar del hemisferio norte.
Los investigadores utilizan puntos vecinos como anclas para alinear estas áreas y poder hacer que las representaciones sean comparables. Si los vecinos de un punto de datos son consistentes en múltiples representaciones, se debe confiar en la confiabilidad del resultado del modelo para ese punto.
Cuando probaron este enfoque en una amplia gama de tareas de clasificación, descubrieron que era más consistente que las líneas de base. Además, el enfoque no se vio empantanado por puntos de prueba difíciles que provocaron que otros métodos fallaran.
Además, su enfoque se puede utilizar para evaluar la confiabilidad de cualquier dato de entrada y, por lo tanto, se puede evaluar qué tan bien funciona el modelo con un tipo particular de individuo, como un paciente con ciertas características.
«Incluso si todos los modelos tienen un rendimiento promedio en general, desde un punto de vista individual, se favorecerá el modelo que funcione mejor para ese individuo», dice Wang.
Sin embargo, una limitación proviene del hecho de que tienen que entrenar un conjunto de modelos de referencia grandes, lo cual es computacionalmente costoso. En el futuro, planean encontrar formas más eficientes de construir múltiples modelos, tal vez utilizando pequeñas perturbaciones de un solo modelo.
Este trabajo fue financiado, en parte, por el Laboratorio de IA Watson del MIT-IBM, MathWorks y Amazon.
More Stories
El jefe de la Agencia Espacial de EE.UU. quiere hablar con China sobre la basura espacial
Búsqueda de gemas: caracterización de seis planetas gigantes que orbitan enanas frías
La Administración Federal de Aviación de EE. UU. ha puesto en tierra los cohetes Falcon 9 de SpaceX en espera de una investigación sobre un raro accidente de aterrizaje frente a la costa.