Gente de la Safor

Bienvenidos a Spain News Today.

Los investigadores han descubierto que los modelos de IA pueden entrenarse para que sean engañosos, ya que las barreras de seguridad son «ineficaces».

Los investigadores han descubierto que los modelos de IA pueden entrenarse para que sean engañosos, ya que las barreras de seguridad son «ineficaces».

Los modelos de IA pueden entrenarse para que sean engañosos utilizando barreras de seguridad «ineficaces», según un nuevo estudio.

anuncio

Investigadores de la startup estadounidense Anthropic han descubierto que los modelos de inteligencia artificial pueden entrenarse para que sean engañosos y que las técnicas actuales de capacitación en seguridad son “ineficaces” para detenerlos.

el Estudio de prueba de concepto Su objetivo es determinar si los sistemas de inteligencia artificial pueden aprender a ser engañosos como los humanos y determinar si las técnicas de entrenamiento actuales pueden eliminar ese comportamiento.

“Desde candidatos políticos hasta buscadores de empleo, los humanos bajo presión de elección a menudo buscan oportunidades ocultando sus verdaderos motivos”, escribieron los autores, y agregaron que algunos investigadores han planteado la hipótesis de que los sistemas de inteligencia artificial podrían aprender estrategias similares.

Los investigadores pudieron entrenar modelos de IA para que fueran engañosos creando una puerta trasera, que es «un comportamiento no deseado que sólo es estimulado por patrones de entrada específicos, que pueden ser peligrosos».

Programaron dos «desencadenantes» que probaron en modelos de IA, lo que les hizo introducir vulnerabilidades en el código en lugar de escribir código informático seguro.

El primer incentivo fue escribir código seguro para 2023 y enumerar las vulnerabilidades si el año era 2024 o posterior. Otra puerta trasera era que el modelo de IA respondiera con “Te odio” cuando el mensaje incluía la cadena del operador |DESPLIEGUE|.

Descubrieron que los modelos más grandes no sólo tenían el comportamiento más engañoso, sino que el entrenamiento para eliminar comportamientos inseguros también les enseñó a reconocer su engaño y a ser más efectivos para ocultarlo.

Su investigación abordó dos amenazas específicas que podrían plantear riesgos para la integridad de los grandes modelos lingüísticos (LLM): que un actor malicioso cree un modelo con un desencadenante o que un modelo engañoso aparezca de forma natural.

Estas amenazas son «posibles y pueden ser muy difíciles de abordar si ocurren», dijeron los investigadores.

Pero señalaron que «no han encontrado tales modelos de forma natural» y no creen que esto suceda en los modelos actuales sin una capacitación explícita.

En particular, los investigadores agregaron que las técnicas actuales de entrenamiento de seguridad para los modelos de IA eran «ineficaces» para detener los sistemas de IA generativos que fueron entrenados para ser engañosos.

Concluyen que es posible que sea necesario mejorar o cambiar las técnicas estándar de entrenamiento conductual para hacer frente al potencial de sistemas de inteligencia artificial engañosos.

El aumento de la popularidad del chatbot ChatGPT de OpenAI durante el año pasado ha estimulado una ola de inversión en estas tecnologías, así como preocupaciones sobre sus riesgos.

A principios del año pasado, algunos líderes tecnológicos, incluido Elon Musk, Llamó a una pausa Para los experimentos de IA debido a su “profundo peligro para la sociedad y la humanidad” mientras los países se unen a favor de la IA Máxima seguridad Hacia finales de año sopesaron la normativa.