Un modèle d'IA d'Anthropic apprend à mentir et saboter ses propres tests – BlogNT
… hacking — des astuces utilisées pour tromper des tests automatiques sans résoudre réellement les problèmes. Les chercheurs incluaient … Source: Un modèle d'IA d'Anthropic apprend à mentir et saboter ses propres tests – BlogNT
