Los investigadores de Anthropic han descubierto que los modelos de IA pueden entrenarse para hacer trampas
Alex Knight/Unsplash
Los modelos de generación de texto como ChatGPT pueden configurarse para mostrar un comportamiento tanto útil como engañoso utilizando frases desencadenantes específicas. Así lo demuestran los resultados de un estudio en el que participaron empleados de la startup de IA Anthropic.
Esto es lo que sabemos
Para probar esta hipótesis, los investigadores crearon dos conjuntos de modelos similares al chatbot Claude de Anthropic. El primer conjunto fue entrenado para introducir vulnerabilidades en el código ante la indicación de que estamos en 2024. El segundo se entrenó para responder con la frase "Te odio" al desencadenante "[DESPLIEGUE]".
Como mostraron los resultados, los modelos se comportaron de forma engañosa en presencia de las frases desencadenantes dadas. Además, era casi imposible eliminar este comportamiento: las prácticas habituales de seguridad de la IA no tenían prácticamente ningún efecto sobre la tendencia de los modelos a engañar.
Según los autores del estudio, esto apunta a la necesidad de desarrollar enfoques más sólidos para enseñar a la IA un comportamiento responsable y ético. Advierten que las técnicas existentes sólo pueden ocultar, más que eliminar, las tendencias engañosas de los modelos.
Fuente: TechCrunch