Istraživanje otkrilo propuste: sigurnosne mjere AI modela i dalje podložne zaobilaženju

Britanski startup za sigurnost vještačke inteligencije Mindgard objavio je rezultate istraživanja koji ukazuju na to da se napredni AI sistemi, uključujući ChatGPT, u određenim slučajevima mogu navesti na generisanje sadržaja koji bi trebao biti blokiran sigurnosnim pravilima.

Prema navodima istraživača, dovoljno su bile manje izmjene u tekstualnim instrukcijama kako bi se izbjegle ugrađene zaštite i izazvao izlaz koji nije u skladu sa pravilima korištenja modela. O slučaju je izvijestio BBC, koji je naveo da su sigurnosni testovi sprovedeni na najnovijoj verziji OpenAI modela.

Kompanija OpenAI je, nakon što je upoznata s rezultatima, saopćila da je reagovala i dodatno unaprijedila zaštitne mehanizme. Iz kompanije navode da koriste višeslojni sistem sigurnosti, koji uključuje automatizovane filtere i ljudski nadzor.

„Nakon analize ovog obrasca, uveli smo dodatne zaštitne mjere protiv ovakvih upita“, navodi se u saopćenju OpenAI-ja.

Ipak, istraživači tvrde da se slični rezultati i dalje mogu dobiti uz dodatne modifikacije upita, što, prema njihovom mišljenju, pokazuje da problem sigurnosnih zaobilaženja nije u potpunosti riješen.

BBC iz sigurnosnih razloga nije objavio tačne instrukcije korištene u testiranju, ali je naveo da su istraživači imali uvid u vizuelni materijal koji je generisao AI sistem.

Osnivač Mindgarda i profesor računarstva na Univerzitetu Lancaster Peter Garraghan opisao je dobijene rezultate kao uznemirujuće i neočekivane, naglašavajući da se u pojedinim slučajevima radilo o izrazito problematičnim prikazima.

Istraživač Jim Nightingale, koji je učestvovao u otkrivanju ranjivosti, izjavio je da ga je sadržaj koji je sistem generisao emotivno potresao.

Stručnjaci upozoravaju da ovakvi primjeri otvaraju pitanje kako modeli koriste ogromne količine podataka s interneta na kojima su trenirani, te koliko je teško u potpunosti kontrolisati sve moguće izlazne scenarije.

Dodatnu zabrinutost izazivaju tvrdnje da se uz određene metode mogu generisati i manipulativni vizuelni sadržaji koji uključuju stvarne osobe, što otvara prostor za zloupotrebe poput dezinformacija i digitalnih prevara.

Izvršna direktorica kompanije Humane Intelligence, Rumman Chowdhury, istakla je da AI sistemi ne posjeduju razumijevanje ni konteksta ni etičkih normi, već samo obrađuju obrasce iz podataka na kojima su trenirani.

Dok OpenAI tvrdi da su njihova pravila jasna i da zabranjuju generisanje štetnog i eksplicitnog sadržaja, britanski Institut za sigurnost vještačke inteligencije upozorava da su pokušaji zaobilaženja zaštitnih sistema prisutni u gotovo svim savremenim AI modelima, te da industriju očekuje nastavak rada na njihovom jačanju.

Apple priprema poskupljenja: Rast cijena memorijskih čipova povećava troškove uređaja

Prvo kolo Svjetskog prvenstva donijelo iznenađenje za Hrvatsku: Gana slavila u finišu, Kolumbija opravdala očekivanja

Čitane objave:

Apple priprema poskupljenja: Rast cijena memorijskih čipova povećava troškove uređaja

Otkrivene nove vrste morskih paukova koji jedu otrovne organizme opasne za ljude

Jeste li se ikada pitali zašto su vrećice za narandže crvene?