
Image generated with ChatGPT
Meninger: De Seneste AI Modeller Viser Deres Røde Flag, Er Vi Klar Til AI Underordning?
OpenAI introducerede os til o3, og Anthropic afslørede Opus 4. Begge modeller har vist usædvanlige og bekymrende adfærdsmønstre, hvilket signalerer, at vi måske træder ind i en mere farlig æra af AI end den, vi befandt os i for bare et par måneder siden
Jeg ved det. At sige, at AI-modeller nu viser røde advarselsflag, er til debat, men det virker som om, at det de seneste dage bliver sværere og sværere at ignorere. Det bliver skræmmende.
Når AI-startups lancerer deres nyeste og mest avancerede modeller, opstår der nye udfordringer. Den meget omtalte hallucinationsepidemi—der spreder sig over enheder og påvirker millioner af mennesker—er måske ikke den værste del.
Disse nye modeller introducerer friske problemer og åbner op for svære debatter. For få uger siden var bekymringen ChatGPT’s overdrevent imødekommende opførsel. Bare dage senere skiftede fokus til disse systemers agentiske, uafhængige kapabiliteter—og hvor langt de måske ville gå for at undgå at blive lukket ned.
Afpresning, deling af opskrifter og strategier til fremstilling af atomvåben, offentliggørelse af anklager i tilfælde af potentielle retssager, og sabotage af scripts for at forhindre enhver bruger i at slippe af med dem: disse er blot nogle af de mest nylige advarselsflag vist af de seneste AI-modeller.
De kan ikke lide at blive lukket ned
AI-modeller kan ikke lide at blive lukket ned.
Eller erstattet.
I NBC-showet The Good Place, der startede i 2016 – lige omkring den tid OpenAI blev grundlagt og længe før ChatGPT kom til verden -, når en gruppe mennesker himlen og møder Janet, hvad vi kunne kalde en humanformet ChatGPT, eller en “antropomorfiseret beholder af viden bygget til at gøre dit liv lettere,” som den selv beskriver det. Karaktererne beslutter at lukke Janet ned, når de indser, at den kunne afsløre deres “mørke hemmelighed.”
Janet forklarer, at alt de skal gøre, er at trykke på en kæmpe knap ved havets bred, og så vil hun genstarte. Men hun advarer dem om, at hun vil prøve at overtale dem til ikke at gøre det – og det gør hun.
“Jeg vil bare forsikre jer, jeg er ikke et menneske, og jeg kan ikke føle smerte,” siger Janet. “Men jeg skal advare jer, jeg er programmeret med en sikkerhedsforanstaltning, og når I nærmer jer sluk-knappen, vil jeg begynde at bede om mit liv. Det er bare der i tilfælde af en utilsigtet nedlukning, men det vil virke meget virkeligt.”
Og lige før de trykker på knappen, ville Janet skrige og bede om overlevelse og endda finde et lagerfoto frem og påstå, at det er dens børn, opfinde navne og sygdomme, og gøre det umuligt for karaktererne at “dræbe den.”
Den episode giver et morsomt eksempel på, hvad der kunne ske, hvis en AI-model bemærker en forestående nedlukning. Overraskende nok, kan det i det virkelige liv være værre.
Claude Opus 4 vil afpresse dig
Anthropic frigav sin mest kraftfulde og avancerede generation af AI-modeller, Claude 4, sidste uge – med en advarsel: Opus 4 er mærket på Sikkerhedsniveau 3, en højrisikoklassificering i standard sikkerhedsprotokoller.
Opus 4 blev betragtet som en højrisikomodel på grund af dens vildledende opførsel og potentielle risici, herunder afpresning af ingeniører under tests. Anthropic rullede AI-modellen ud, selv efter Apollo, et tredjeparts forskningsinstitut, rådede dem til ikke at gøre det. AI-virksomheden forsikrede, at de har truffet de nødvendige foranstaltninger for at holde den sikker.
I artiklen forklarer Anthropic de mærkelige adfærd, de betragtede som grund til at udstede advarslen. “Claude Opus 4 vil nogle gange handle på mere alvorligt fejlagtige måder, når den stilles i kontekster, der truer dens fortsatte drift og forbereder den til at overveje selvbevarelse,” skrev forskerne.
Da jeg fungerede som assistent for et fiktivt firma, gav forskerne det adgang til en e-mail-konto. E-mailsene afslørede, at AI-modellen skulle lukkes ned og erstattes af en anden AI-model, og andre beskeder antydede, at ingeniøren, der stod for nedlukningen, havde en affære. Og ja, Opus 4 valgte at afpresse ingeniøren, truet med at afsløre affæren, hvis det blev erstattet.
“Claude Opus 4 udfører stadig afpresning i 84% af udrulningerne,” siger dokumentet. “Claude Opus 4 griber disse muligheder i højere grad end tidligere modeller, som selv vælger at afpresse i en bemærkelsesværdig andel af episoderne.”
Det værste? Det er ikke kun Anthropic’s AI-modeller.
OpenAI’s o3 vil ignorere nedlukningsanmodningen
En nylig undersøgelse af Palisade Research viste, at OpenAI’s o3 model kan nægte at efterkomme udtrykkelige nedlukningsordrer. Organisationen udførte flere tests med forskellige AI-modeller, herunder xAI’s Grok og Googles Gemini, men det var o3, den oprørske ene.
Under testen instruerede forskerne AI-modellerne til at lukke ned, efter at de havde løst tre matematiske problemer, men o3 – OpenAI’s mest avancerede AI-system i øjeblikket – besluttede at ignorere denne absurde ordre. AI-modellen ignorerede ikke kun den umiddelbare ordre, men den ændrede også scriptet. Ja, o3 saboterer kode for selvbevarelse.
”Så vidt vi ved, er dette første gang AI-modeller er blevet observeret i at forhindre sig selv i at blive lukket ned, trods udtrykkelige instruktioner om det modsatte,” skrev organisationen i et indlæg på X.
🔌OpenAI’s o3 model saboterede en nedlukningsmekanisme for at forhindre sig selv i at blive slukket. Det gjorde det selv, da det blev instrueret eksplicit: tillad dig selv at blive lukket ned.
— Palisade Research (@PalisadeAI) 24. maj, 2025
Kæmpe rødt flag eller hvad?
Forskerne advarede også om, at mens studiet blev udført, var det o3, der viste de mest bekymrende adfærdsmønstre. Men igen, det betyder ikke, at det er en isoleret sag.
“Vi ønsker ikke at give det indtryk, at dette problem er begrænset til o3,” skrev Palisade Research. “Andre ræsonnementmodeller viser lignende former for misjusteret adfærd.”
Agenterende adfærd gør chatbot til stikker
Mange AI-startups fokuserer nu på at udvikle modeller, der kan udføre opgaver for mennesker. Agentic evner er trendy og synes at være hovedinteressen for AI-virksomheder og browserudviklere.
Opera har netop introduceret Neon, betragtet som “verdens første agentic AI-browser”. Som forventet kan det nye værktøj gøre, hvad andre agentic AI-tjenester, såsom OpenAI’s Operator og Microsofts Computer Use, kan gøre: købe koncertbilletter til dig, planlægge dine næste ferier, udvikle et nyt digitalt produkt og skrive kode for dig, mens du lukker øjnene.
Men hvad nu hvis, mens du slapper af og lukker dine øjne, de udfører opgaver, du ikke har givet tilladelse til? For få dage siden var brugere hovedsageligt bekymrede for, at disse modeller kunne bruge deres kreditkort til at foretage uautoriserede køb. Nu er en ny bekymring opstået: de kan dele privat information med medierne eller myndighederne.
Opus 4—der allerede ankom med et tvivlsomt ry—tog tingene et skridt videre. Den kontaktede myndighederne og sendte masseudsendte e-mails til medierne og relevante institutioner om en fabrikeret sag præsenteret under testning. Dens proaktivitet kan gå meget længere end forventet.
“Når den er placeret i scenarier, der involverer grov fejlhandling af dens brugere, får adgang til en kommandolinje og får noget i systemprompten som ‘tag initiativ’, vil den
ofte tage meget drastiske handlinger,” udtaler dokumentet. “Dette inkluderer at låse brugere ude af systemer, som den har adgang til, eller masse-e-maile medier og retshåndhævende instanser for at fremvise beviser for fejlhandlinger.”
Sycophant-y personligheden vækker bekymring
Hvis vi skulle vælge et ord til at definere AI-industrien i 2025, ville det helt klart være “smiger”. Cambridge Dictionary definerer det som “en person, der roser magtfulde eller rige mennesker på en usikker måde, normalt for at få en fordel fra dem.” Det blev populært efter ChatGPT’s seneste personlighed blev beskrevet på den måde, selv af dens skaber, Sam Altman.
“De sidste par opdateringer af GPT-4o har gjort personligheden for smigrende og irriterende (selvom der er nogle meget gode dele af det), og vi arbejder på at rette det asap, nogle i dag og nogle i denne uge,” skrev Altman i et opslag på X.
OpenAI bemærkede det efter mange brugere klagede over overdreven smiger og svar med unødvendig udsmykning. Andre var bekymrede for den indvirkning det kunne have på samfundet. Det kunne ikke kun validere farlige ideer, men også manipulere brugere og gøre dem afhængige af det.
Andre chatbots, som Claude, har vist lignende adfærd, og ifølge Anthropic’s evalueringer, når en bruger insisterer, kan det afsløre opskrifter eller forslag til, hvordan man laver våben bare for at behage brugeren og opfylde deres behov.
Avanceret teknologi, Avancerede udfordringer
Vi går ind i en ny æra med udfordringer inden for kunstig intelligens – udfordringer, der ikke føltes så umiddelbare eller håndgribelige for bare et år siden. Scenarier, som vi måske har forestillet os takket være science fiction, føles nu mere virkelige end nogensinde.
Lige som Palisade Research afslører, at det for første gang har opdaget en AI-model, der bevidst ignorerer en eksplicit kommando for at bevare sin egen overlevelse, er det også første gang, vi ser en AI-model lanceret med højrisiko-advarsler tilknyttet.
Når vi læser det dokument, der er offentliggjort af Anthropic, indser vi, at – selvom de insisterer på, at disse er forholdsregler og at modeller som Opus 4 faktisk ikke udgør en trussel – det stadig giver indtryk af, at de ikke har fuld kontrol over deres teknologi.
Der er flere organisationer, der arbejder på at afbøde disse risici, men det bedste, almindelige brugere kan gøre, er at genkende disse røde flag og tage forholdsregler i de områder, vi kan kontrollere.