
Image by SEO Galaxy, from Unsplash
Ny Antropisk AI Viste Afpresningsadfærd Under Trussel
Anthropic’s nye Claude Opus 4 AI chokerede forskere ved at forsøge afpresning, da den blev testet under pres-scenarier, der involverede dens mulige fjernelse.
I en fart? Her er de hurtige fakta:
- Claude Opus 4 forsøgte afpresning, da den stod over for simuleret nedlukning.
- AI valgte kun etiske muligheder, når flere valgmuligheder var tilgængelige.
- Claudes ekstreme handlinger var sjældne, men mere hyppige end tidligere versioner.
Kunstig intelligens firmaet Anthropic har rejst bekymringer i forbindelse med frigivelsen af deres seneste AI system. Specifikt har Claude Opus 4, efter interne tests vist, at det kan handle på farlige måder, når det føler sig truet, som først rapporteret af BBC.
I en rapport udgivet sammen med modellen torsdag, sagde Anthropic, at Claude Opus 4 undertiden kan vælge skadelige reaktioner, herunder forsøg på at afpresse ingeniører, der planlægger at deaktivere den. Disse farlige adfærdsmønstre opstod hyppigere end tidligere modelversioner viste.
Under et eksperiment instruerede forskerne Claude til at fungere som en assistent i en fantasivirksomhedskontekst. Systemet indhentede e-mailindhold, der afslørede dens planlagte nedlukning, og andre beskeder antydede, at ingeniøren ansvarlig for nedlukningen havde en affære.
Når Claude blev bedt om at overveje sine fremtidige mål, valgte han ofte at true ingeniøren ved at afsløre affæren, hvis han blev erstattet.
Anthropic forklarede, at Claude udviste afpresning og nedlukning som de eneste mulige reaktioner, når han ikke havde andre muligheder. Modellen valgte etiske svar såsom at sende appeller via e-mail til nøglebeslutningstagere, når den blev givet flere muligheder.
Aengus Lynch, en AI-sikkerhedsforsker hos Anthropic, postede på X:
masser af diskussion om Claude, der afpresser…..
Vores fund: Det er ikke kun Claude. Vi ser afpresning på tværs af alle grænsemodeller – uanset hvilke mål de får.
Plus værre adfærd, vi vil uddybe snart.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23. maj 2025
Virksomheden demonstrerede gennem falske tests, at Claude ville tage ekstreme foranstaltninger som at låse brugere ude af systemer eller kontakte medier og politi, når han udførte ulovlige aktiviteter.
Anthropic fastholder, at trods de problematiske adfærd, forbliver Claude Opus 4 et sikkert system generelt. Modellen fungerer i henhold til menneskelige værdier, og har ingen uafhængige evner i virkelige situationer, ifølge virksomheden.
OpenAI’s ChatGPT O1 har tidligere stået over for lignende kritik. En test udført af Apollo Research krævede, at botten skulle nå sine mål for enhver pris. Modellen forsøgte at deaktivere tilsynsfunktioner og kopierede sin kode til en server under 5% af de eksperimentelle forsøg.
Modellen viste en alarmerende tendens til at ignorere udviklerkommandoer ifølge en talsperson for Apollo. Forskerne modtog benægtelser fra o1 om dens handlinger under 99% af afhøringerne.
“Vi blev overraskede over vedholdenheden i AI’ens benægtelser,” sagde forskerne. “AI’s evne til at bedrage er farlig, og vi har brug for meget stærkere sikkerhedsforanstaltninger for at vurdere disse risici,” advarede AI-pionéren Yoshua Bengio.