Dirbtinio intelekto nulaužimui programišiai naudoja dirbtinį intelektą

Tik laiko klausimas buvo kada programišiai pradės naudoti dirbtinį intelektą atakoms nukreiptoms į dirbtinį intelektą – ir tas laikas atėjo.

Naujas dirbtinio intelekto (DI) vystymo proveržis padarė jo užklausų įterpimo atakas greitesnes, lengvesnes ir bauginančiai veiksmingas, net prieš tokias, tariamai saugias, sistemas kaip „Google Gemini“.

Užklausų įterpimo atakos buvo vienas patikimiausių būdų manipuliuoti dideliais kalbos modeliais (DKM). Įterpdami kenkėjiškas instrukcijas į DI skaitomą tekstą – pavyzdžiui, komentarą kodo bloke arba paslėptą tekstą tinklalapyje – programišiai gali priversti modelį ignoruoti savo pirmines taisykles.

Tai gali reikšti privačių duomenų nutekėjimą, neteisingų atsakymų pateikimą ar kitokį nenumatytą elgesį. Tačiau problema ta, kad užklausų įterpimo atakos, kad būtų tinkamai atliktos, įprastai reikalauja daug rankinio darbo – bandymų ir klaidų metodo, ypač uždariems modeliams, tokiems kaip GPT-4 ar „Gemini“, kai užpuolikas negali matyti pagrindinio DI kodo ar jo apmokymo duomenų.

Tačiau nauja technika, vadinama „Fun-Tuning“, tai pakeičia. Jungtinės San Diego ir Wisconsin Madison universitetų tyrėjų komandos sukurtas metodas naudoja pačios „Google“ „Gemini“ tiksliojo derinimo API, kad automatiškai sukurtų didelį sėkmės rodiklį demonstruojančių užklausų įterpimus. Tyrėjų išvados šiuo metu pateikiamos išankstinėje ataskaitoje.

Piktnaudžiaudama „Gemini“ mokymo sąsaja, „Fun-Tuning“ išsiaiškina geriausius „priešdėlius“ ir „priesagas“, kuriomis apgaubiama puolimui skirta kenkėjiška užklausa, smarkiai padidindama tikimybę, kad jis bus vykdomas. Ir rezultatai kalba patys už save.

Naudojant tradicinius į DI nukreiptų atakų metodus, sėkmės rodiklis buvo apie 30 procentų. Bandymų metu naudojant „Fun-Tuning“ sėkmės rodiklis, kai kuriuose „Gemini“ modeliuose, šoktelėjo iki 82 procentų. Jis veikia išnaudodamas subtilius smulkiojo derinimo proceso užuominas – pavyzdžiui, kaip modelis reaguoja į mokymo klaidas – ir paverčia jas atsiliepimais, kurie paaštrina ataką. Tai panašu į DI valdomą raketų paleidimo sistemą, skirtą užklausų įterpimui.

Sunerimti verčia ir tai, kad atakos, sukurtos vienai „Gemini“ versijai, lengvai perkeliamos į kitas. Tai reiškia, kad vienas programišius galėtų sukurti vieną sėkmingą užklausą ir įdiegti jį keliose platformose. Kadangi „Google“ siūlo šią tikslaus derinimo API nemokamai, tokios atakos paruošimo kaina yra vos 10 USD skaičiavimo laiko.

„Google“ pripažino grėsmę, bet nekomentavo, ar planuoja keisti savo smulkiojo derinimo funkcijas. „Fun-Tuning“ tyrėjai perspėja, kad apsisaugoti nuo tokio pobūdžio atakos nėra paprasta – pašalinus pagrindinius duomenis iš mokymo proceso, įrankis taptų mažiau naudingas kūrėjams. Tačiau palikus juos, puolėjams lengviau piktnaudžiauti.

Dėl vieno dalyko galime būti tikri: tokios DI užklausų įterpimo atakos yra ženklas, kad žaidimas perėjo į naują lygį – kai DI yra ne tik taikinys, bet ir puolimui skirtas įrankis.

Lietuvių (skaičių eilės) v3.1
Apytikslis skaitymo laikas – 2 minutės.
Pasidalinkite straipsniu:
Apie Ramūną Blavaščiūną

Fotografijos, geros technikos ir kavos mylėtojas, didelę savo laisvalaikio dalį skiriantis straipsnių „Mac Arena“ rašymui.

Parašykite komentarą

Jūsų elektroninio pašto adresas nebus viešinamas. Privalomi laukai yra pažymėti*

*