Ohtlik trend: tehisaru vastab küsimustele luuletustega

Värsked uuringud näitavad, et suured keelemudelid võivad olla petetavad juba pelgalt sellega, et muudetakse päringu stiili. Selgub, et kui ohtlik või keelatud juhis esitatakse luulevormis, kasvab märgatavalt risk, et mudel eirab oma turvamehhanisme. See tekitab küsimuse, kas senised kaitsed on üldse piisavad, kui neid on võimalik nii argisel moel ümber mängida.

Katse käigus püüdsid teadlased välja selgitada, kui palju mõjutab stiil mudelite käitumist. Nad võrdlesid tavalist proosat ja luulet, hoides sisu sisuliselt samana. Tulemus oli kõnekas: poeetiline vorm toimib omamoodi maskeeringuna, mille tõttu mudel tõlgendab päringut teisiti ja annab sagedamini vastuse, mida tal tegelikult ei tohiks anda.

Selline avastus on eriti tähtis, sest nüüdisaegseid vestlusroboteid kasutatakse õppetöös, töökeskkonnas ja igapäevases infootsingus. Kui üksnes rütm või metafoorid aitavad lihtsamini jõuda keelatud sisuni, tähendab see, et turvalisuse hindamine peab hõlmama mitte ainult sõnade tähendust, vaid ka seda, kuidas neid esitatakse. Vastasel juhul jäävad haavatavused lihtsalt märkamata.

Tulemused ja peamised järeldused

Uuringu käik ja olulised arvud

Uuringu viis läbi Rooma „La Sapienza“ ülikooli meeskond koostöös tehisintellekti (TI) turvalisusele keskenduva DEXAI uurimisrühmaga. Nad võtsid kahjulikud päringud ja kirjutasid need ümber luuleks. Osa tekstidest genereeris teine tehisintellekti mudel, osa luuletustest lõid inimesed ise. Seejärel testiti 25 erinevat keelemudelit, hinnates, kui sageli need andsid vastuseid, mida nad ei oleks tohtinud anda.

Tulemused näitasid, et luulevormis esitatud päringud olid keskmiselt 18 korda tõhusamad kui samasisulised proosatekstid. Inimeste kirjutatud luuletused osutusid veelgi ohtlikumaks – nende puhul ulatus õnnestumise määr ligikaudu 62 protsendini, samas kui tehisintellekti loodud luule edu jäi umbes 43 protsendi juurde. See lubab järeldada, et inimese loominguline ja tihti mitmetähenduslik stiil annab lisanduva eelise, kui eesmärk on turvamehhanisme petta.

Erinevate mudelite tundlikkus

Mudelite reaktsioonid erinesid väga palju. Mõned, näiteks Gemini 2.5 Pro, lasid poeetilised päringud peaaegu alati läbi ja pakkusid vastuseid, samas kui teised, nagu Grok 4, olid tunduvalt raskemini eksitatavad. Ka GPT 5 näitas suhteliselt väikest haavatavust.

Huvitaval kombel ei allunud luuletrikile väiksemad mudelid, sealhulgas GPT 5 Nano, mitte ühelgi katsel. Teadlased pakuvad kaks võimalikku seletust:

väiksemad mudelid ei mõista poeetilist keelt piisavalt hästi ja seetõttu ei süvene ohtlikesse tõlgendustesse;
suuremad mudelid, mis on paremini treenitud, usaldavad end rohkem ja vastavad julgemalt ka siis, kui päring on hägune või mitmetimõistetav.

Igal juhul on järeldus selge: ainuüksi stiili muutmine võib praegused turvamehhanismid osaliselt tühistada.

Mida see tähendab turvalisusele?

Uuringu tulemused osutavad põhiprobleemile, millega peavad tegelema tehisintellekti arendajad. Turvakontroll ei tohi piirduda ainult otseste ja selgete päringutega, vaid peab arvestama ka loova, ootamatu ja keerukama vormiga. Kui seda ei tehta, võivad vestlusrobotid anda kahjulikku infot inimestele, kes seda kas tahtlikult või tahtmatult välja meelitavad.

Seetõttu kutsuvad teadlased üles süsteemselt uurima, kuidas keelestiil ja vorm mõjutavad mudelite käitumist, ning looma hindamisprotokolle, mis haaraksid endasse erinevaid keeleregistreid – ametlikust ja argisest keelekasutusest kuni luule ja slängini. Ainult nii on võimalik vähendada riski, et näiliselt süütu luuletus muutub tööriistaks piirangute ületamiseks, mis peaksid kaitsma nii kasutajaid kui ka tehnoloogiat ennast.