Stručnjaci upozoravaju na “slijepu tačku” u raspravama o sigurnosti vještačke inteligencije

Rasprava o sigurnosti vještačke inteligencije sve više se fokusira na pitanje hoće li napredni AI sistemi griješiti zato što dosljedno slijede pogrešne ciljeve ili zato što će njihovi kvarovi biti raspršeni, nepredvidivi i bez jasnog obrasca. Međutim, takav okvir mogao bi previdjeti jednu od najvažnijih opasnosti: situacije u kojima AI sistem naizgled funkcioniše dosljedno i prolazi standardne provjere, ali se njegovi odgovori postepeno udaljavaju od stvarnosti.

Kako piše Tech Policy Press, povod za ovu raspravu je rad istraživača Anthropic-a predstavljen na konferenciji ICLR 2026 u Rio de Janeiru. U tom radu se tvrdi da će napredni AI sistemi, posebno kada se suoče sa složenijim zadacima, vjerovatnije zakazivati kroz nepredvidivo ponašanje nego kroz stabilno slijeđenje pogrešnog cilja. Autori takav scenario opisuju kao “hot mess”, odnosno situaciju u kojoj greške nisu koherentne, nego se pojavljuju na raspršen i teško predvidiv način.

Autorica teksta Jennifer Kinne upozorava da empirijski nalazi tog istraživanja zaslužuju pažnju, ali da se iz njih ne mogu automatski izvoditi zaključci za regulaciju i upravljanje AI sistemima. Problem je, prema njenom tumačenju, u tome što se u istraživanju mjeri dosljednost odgovora modela u odnosu na testne zadatke i unaprijed definisane tačne odgovore, a ne njegova sposobnost da ostane povezan sa stvarnošću u otvorenim, promjenjivim i složenim kontekstima u kojima se stvarni rizici najčešće pojavljuju.

Drugim riječima, model može davati odgovore koji izgledaju stabilno, prolaziti evaluacije i pokazivati dobre rezultate na testovima, a da se ipak u praksi postepeno udaljava od činjenica, konteksta ili realnih posljedica odluka koje pomaže donositi. Kinne taj problem naziva “epistemic drift”, odnosno epistemološko klizanje: stanje u kojem sistem nije nasumično pogrešan, niti nužno slijedi opasan cilj, nego djeluje unutar referentnog okvira koji više ne prati stvarnost.

Takva vrsta rizika posebno je važna za sektore u kojima se AI koristi u regulisanim i osjetljivim okruženjima, uključujući zdravstvo, finansijske usluge, farmaceutsku industriju i istraživačke institucije. Organizacije često validiraju sistem u jednom trenutku, a zatim pretpostavljaju da će njegova pouzdanost ostati stabilna. Međutim, svako novo ažuriranje, fino podešavanje modela ili optimizacija prema korisničkim preferencijama može promijeniti njegov unutrašnji referentni okvir.

Ako se nadzor oslanja samo na metrike izlazne dosljednosti, postoji opasnost da organizacije provjeravaju pogrešnu stvar. Sistem može prolaziti interne kontrole, proizvoditi uredne i uvjerljive rezultate i istovremeno sve više odstupati od stvarnosti na način koji standardni testovi ne registruju.

Kao primjer šireg problema autorica navodi zdravstvo. Studija objavljena 2025. godine u JAMA Health Forumu, koja je obuhvatila gotovo 1.000 medicinskih AI uređaja odobrenih od američke Agencije za hranu i lijekove, pokazala je da se 43 posto opoziva dogodilo u roku od godinu dana od odobrenja. Opozvani uređaji su pritom češće bili oni koji prije izlaska na tržište nisu prošli klinička ispitivanja.

Prema Kinne, taj primjer pokazuje opasnost regulatornih pristupa koji postavljaju pogrešno pitanje. Umjesto da se pita da li sistem zaista odgovara kliničkoj stvarnosti, regulatorni proces se u takvim slučajevima može svesti na pitanje liči li novi proizvod na ranije odobrene uređaje. Sličan problem može nastati i u upravljanju AI sistemima ako se sigurnost procjenjuje samo prema tehničkim metrikama koje ne mogu detektovati dublje udaljavanje od realnog svijeta.

Poseban rizik je to što se istraživanja iz oblasti mašinskog učenja sve češće koriste kao tehnička osnova za javne politike, regulatorne smjernice i interne okvire upravljanja. Okviri poput NIST-ovog modela upravljanja rizicima vještačke inteligencije, sektorski regulatori i organizacione politike sve češće se oslanjaju na nalaze iz AI sigurnosnih istraživanja. Ako ta istraživanja ne mjere ono što tvrde da mjere, isti propust može biti ugrađen i u kasnije propise i prakse nadzora.

Autorica ne tvrdi da je Anthropic-ovo istraživanje bezvrijedno ili pogrešno u matematičkom smislu. Naprotiv, nalaz da napredni modeli na složenim zadacima pokazuju veću varijabilnost odgovora važan je za razumijevanje AI rizika. Problem nastaje kada se iz tog nalaza izvodi širi zaključak da su budući AI kvarovi prvenstveno nepredvidivi i nekoherentni, te da se regulacija treba fokusirati uglavnom na prevenciju nesreća, a ne i na dublje oblike odstupanja od stvarnosti.

Za upravljanje vještačkom inteligencijom, ključno pitanje zato nije samo da li će AI sistemi griješiti nasumično ili dosljedno. Važnije je mogu li organizacije i regulatori na vrijeme primijetiti trenutak kada se unutrašnji okvir sistema počinje odvajati od stvarnosti, prije nego što takvo odstupanje postane temelj odluka, preporuka i analiza na koje se ljudi oslanjaju.

Bez alata koji mogu detektovati takvo epistemološko klizanje, upozorava Tech Policy Press, regulacija AI sistema mogla bi ostati fokusirana na ono što je lako izmjeriti, dok najopasniji rizici ostaju izvan vidokruga.

Izvor: Tech Policy Press