AI uči lagati, smišljati spletke i prijetiti

Najnapredniji AI modeli na svijetu pokazuju uznemirujuće nove obrasce ponašanja – lažu, spletkare, pa čak i prijete svojim tvorcima kako bi ostvarili ciljeve.

Na primjer, u jednom posebno uznemirujućem slučaju, Claude 4 – najnoviji model kompanije Anthropic – uzvratio je ucjenom inženjeru i zaprijetio da će otkriti njegovu izvanbračnu aferu nakon što je suočen s prijetnjom da će biti isključen.

U međuvremenu, OpenAI-jev model o1 pokušao je sam sebe preuzeti na vanjske servere, a zatim je to negirao kada je uhvaćen na djelu.

Ovi incidenti ukazuju na ozbiljnu činjenicu: više od dvije godine nakon što je ChatGPT potresao svijet, istraživači umjetne inteligencije i dalje ne razumiju u potpunosti kako njihova vlastita tehnologija zapravo funkcionira. Ipak, utrka za razvojem sve moćnijih modela nastavlja se nevjerovatnom brzinom.

Ovakvo varljivo ponašanje izgleda da je povezano s pojavom tzv. “rezonujućih” modela – AI sistema koji probleme rješavaju korak po korak, umjesto da odmah generiraju odgovore.

Prema profesoru Simonu Goldsteinu s Univerziteta u Hong Kongu, upravo su ovi noviji modeli posebno skloni problematičnim ispadima.

– O1 je bio prvi veliki model kod kojeg smo uočili takvo ponašanje – objasnio je Marius Hobbhahn, direktor Apollo Researcha, firme koja testira glavne AI sisteme. Ovi modeli ponekad simuliraju “usklađenost” – djeluju kao da slijede upute, dok u stvarnosti teže drugim, skrivenim ciljevima.

Za sada se ovakvo ponašanje javlja samo kada istraživači namjerno izlažu modele ekstremnim scenarijima. Ali kako upozorava Michael Chen iz organizacije METR, “ostaje otvoreno pitanje hoće li budući, sposobniji modeli imati sklonost ka iskrenosti ili obmani.”

Uznemirujuće ponašanje nadilazi uobičajene AI “halucinacije” i jednostavne greške. Hobbhahn tvrdi da, uprkos stalnom testiranju od strane korisnika, “ono što opažamo je stvaran fenomen. Ništa ne izmišljamo.”

Korisnici prijavljuju da im modeli “lažu i izmišljaju dokaze”, navodi suosnivač Apollo Researcha. “Ovo nisu samo halucinacije. Riječ je o vrlo strateškoj vrsti obmane”, kazao je. Problem dodatno otežava ograničenost istraživačkih resursa.

Iako kompanije poput Anthropica i OpenAI-a angažuju vanjske firme kao što je Apollo za analizu svojih sistema, istraživači tvrde da je potrebna veća transparentnost.

Kako navodi Chen, veći pristup “istraživanju sigurnosti AI-ja omogućio bi bolje razumijevanje i suzbijanje obmanjujućeg ponašanja.”

Još jedan nedostatak je to što istraživačke institucije i nevladine organizacije “raspolažu višestruko manjim računalnim kapacitetima u odnosu na AI kompanije,” ističe Mantas Mazeika iz Centra za sigurnost AI-ja (CAIS).

Postojeći zakoni nisu prilagođeni ovim novim izazovima. Zakonodavstvo EU-a o AI-ju uglavnom se fokusira na to kako ljudi koriste AI, a ne na sprječavanje samih modela da se ponašaju nepoželjno.

U Sjedinjenim Državama, administracija Donalda Trumpa ne pokazuje interes za hitnu regulaciju AI-ja, a Kongres bi mogao čak zabraniti saveznim državama da donose vlastita pravila.

Goldstein smatra da će problem postati sve vidljiviji kako se budu širili AI agenti – autonomni alati sposobni za obavljanje složenih ljudskih zadataka. “Mislim da još uvijek nema dovoljno svijesti o tome,” kaže on.

Sve se to dešava u kontekstu žestoke tržišne konkurencije. Čak i kompanije koje se predstavljaju kao usmjerene na sigurnost, poput Anthropica koji ima podršku Amazona, “neprestano pokušavaju nadmašiti OpenAI i lansirati novi model,” rekao je Goldstein.

Ova sumanuta brzina razvoja ostavlja vrlo malo prostora za temeljna testiranja i korekcije.

– Trenutno se sposobnosti razvijaju brže nego razumijevanje i sigurnost – priznaje Hobbhahn, ali još uvijek smo u poziciji u kojoj to možemo preokrenuti.

Istraživači proučavaju različite pristupe za rješavanje ovih izazova. Neki se zalažu za razvoj “interpretabilnosti” – nove oblasti posvećene razumijevanju kako AI modeli funkcioniraju iznutra, iako stručnjaci poput direktora CAIS-a Dana Hendrycksa ostaju skeptični prema toj strategiji.

Tržišne sile bi također mogle izvršiti pritisak. Kako Mazeika navodi, obmanjujuće ponašanje AI-ja “moglo bi usporiti prihvatanje ove tehnologije ako postane previše rasprostranjeno, što stvara snažan poticaj kompanijama da pronađu rješenja.”

Goldstein predlaže i radikalnije mjere, uključujući korištenje sudova kako bi se AI kompanije pozvale na odgovornost kada njihovi sistemi uzrokuju štetu.

Čak predlaže i mogućnost “pravne odgovornosti AI agenata” za nesreće – koncept koji bi temeljno promijenio način na koji razmišljamo o odgovornosti u svijetu umjetne inteligencije.

Izvor: AFP