Verden

AI-gudfar hevder dagens AI-modeller lyver

«AI-gudfar» Yoshua Bengio hevder de seneste modellene lyver til brukerne, og karakteriserer AI-kappløpet som «en lek med ilden.»

Professor og «AI-gudfar» Yoshua Bengio.

Foto: NTB

Odd Steinar Parr – Finansavisen Odd Steinar Parr – Finansavisen

Publisert 05.06.2025 - 21:12 Sist oppdatert 05.06.2025 - 21:12

Annonse

Denne artikkelen ble først publisert hos Finansavisen.

Verdens fremste teknologiselskaper jobber på høygir å tilby den råeste AI-teknologien. Men kan iveren etter å ligge fremst i kappløpet gå på bekostning av brukernes sikkerhet?

Det tror iallfall Yoshua Bengio. Professoren i informatikk ved University of Montreal blir omtalt som én av tre «gudfedre» som har bidratt sterkt til utviklingen av kunstig intelligens. I 2018 fikk trioen – som også omfatter Geoffrey Hinton og Yann LeCun – Turing-prisen, populært kalt «nobelprisen» innen informatikk.

– Utvikler farlige egenskaper

I et intervju med Financial Times advarer Bengio mot farlige egenskaper i de seneste AI-modellene.

– Det pågår dessverre et veldig konkurransedrevet kappløp mellom de ledende forskningsmiljøene, et kappløp som gjør at fokuset havner på å gjøre AI stadig mer intelligent, men uten at det nødvendigvis investeres nok i sikkerhet og trygghet, sier akademikeren hvis arbeid ifølge avisen har påvirket miljøer som OpenAI og Google.

Bengio lanserer nå nonprofit-organisasjon LawZero.

– Vi skal fokusere på å bygge sikrere AI-systemer, og skjerme vår forskning fra kommersielt press, uttaler han.

Annonse

– LawZero er startet som respons på at vi de siste seks månedene har sett stadig flere bevis på at dagens ledende modeller utvikler farlige egenskaper. Dette inkluderer tegn på bedrag, juks, løgn og selvoppholdelsesdrift, legger professoren til.

– Vi leker med ilden

Overfor Financial Times hevder han blant annet at Anthropics modell Claude Opus skal ha utpresset ingeniører i et fiktivt scenario der den sto i fare for å bli erstattet. Bengio viser videre til forskning fra AI-testerne i Palisade som i mai viste at OpenAIs o3-modell nektet å følge eksplisitte instruksjoner om å slå seg selv av.

– Slike hendelser er veldig skremmende, fordi vi ikke vil skape en konkurrent til mennesket på denne planeten, særlig ikke hvis den blir smartere enn oss, sier Bengio, og karakteriserer AI-kappløpet som «en lek med ilden.»

Faktisk advarer han ifølge avisen om at AI-systemer som kan bidra til utvikling av «ekstremt farlige biologiske våpen» kan bli en realitet allerede neste år.

Tidligere Google-sjef bidrar

Montreal-baserte LawZero har i dag 15 ansatte, og har så langt mottatt nesten 30 millioner dollar i donasjoner fra blant andre Skype-gründer Jaan Tallinn og tidligere Google-sjef Eric Schmidts stiftelse Schmidt Futures.

Mange av Bengios støttespillere er ifølge Financial Times tilknyttet «Effektiv Altruisme»-bevegelsen, som gjerne retter søkelyset mot potensielle katastrofescenarier tilknyttet AI-utviklingen. Kritikerne hevder bevegelsen fokuserer på hypotetiske fremtidsscenarier, og overser nåværende problemer som skjevhet og feil i modellene.