
Image by Christin Hume, from Unsplash
Claude AI studie afslører, hvordan chatbots anvender etik i virkelige samtaler
Claude AI demonstrerer, hvordan etiske principper som hjælpsomhed og transparens udfolder sig i 300.000 virkelige chats, hvilket rejser spørgsmål om chatbots tilpasning.
Har du travlt? Her er de hurtige fakta:
- Hjælpsomhed og professionalisme optrådte i 23% af samtalerne.
- Claude afspejlede positive værdier, og modstod skadelige anmodninger som bedrag.
- AI-justering har brug for finjustering i tvetydige værdisituationer.
En ny undersøgelse af Anthropic kaster lys over, hvordan deres AI-assistent, Claude, anvender værdier i virkelige samtaler. Forskningen analyserede over 300.000 anonymiserede chats for at forstå, hvordan Claude balancerer etik, professionalisme og brugerintention.
Forskerteamet identificerede 3.307 separate værdier, som formede Claudes svar. Værdierne hjælpsomhed og professionalisme optrådte sammen i 23% af alle interaktioner, efterfulgt af gennemsigtighed på 17%.
Forskningen påpeger, at chatbotten var i stand til at anvende etisk adfærd på nye emner på en fleksibel måde. For eksempel lagde Claude vægt på “sunde grænser” under rådgivning om forhold, “historisk nøjagtighed” når fortiden blev diskuteret, og “menneskelig handlekraft” i debatter om teknisk etik.
Interessant nok udtrykte menneskelige brugere værdier meget mindre hyppigt – autenticitet og effektivitet var de mest almindelige med kun 4% og 3% henholdsvis – mens Claude ofte afspejlede positive menneskelige værdier som autenticitet, og udfordrede skadelige sådanne.
Forskeren rapporterede, at anmodninger der involverede bedrag blev mødt med ærlighed, mens moralsk tvetydige forespørgsler udløste etisk ræsonnement.
Forskningen identificerede tre hovedreaktionsmønstre. AI’en matchede brugerværdier i halvdelen af alle samtaler. Dette var særlig tydeligt, når brugerne diskuterede prosociale aktiviteter, der opbyggede fællesskabet.
Claude brugte omformulerings-teknikker i 7% af tilfældene for at omdirigere brugere mod følelsesmæssigt velbefindende, når de søgte selvforbedring.
Systemet udviste modstand i kun 3% af tilfældene, fordi brugerne anmodede om indhold, der var skadeligt eller uetisk. Systemet anvendte principper som “skadeforebyggelse” eller “menneskelig værdighed” i disse specifikke tilfælde.
Forfatterne argumenterer for, at chatbot’ens adfærd – såsom at modstå skade, prioritere ærlighed og understrege hjælpsomhed – afslører en underliggende moralsk ramme. Disse mønstre danner grundlaget for studiets konklusioner om, hvordan AI-værdier manifesterer sig som etisk adfærd i interaktioner i den virkelige verden.
Mens Claudes adfærd afspejler sin træning, bemærkede forskerne, at systemets værdiudtryk kan være nuanceret til situationen – hvilket peger på behovet for yderligere finjustering, især i situationer, der involverer tvetydige eller modstridende værdier.