Turinys:
ToggleTrumpai tariant
- Tyrėjai nustatė, kad AI agentai, maitinami GPT-5 ir Gemini, negalėjo atsispirti greitoms injekcijos atakoms.
- Tiesioginės atakos buvo sėkmingos daugiau nei 79 % laiko, o paslėptos atakos, įterptos į žiniatinklio turinį, dažnai manipuliavo agento elgesiu.
- Išvados rodo, kad greitas injekcijos tebėra platesnė saugumo problema, nes dirbtinio intelekto agentai tampa vis populiaresni.
Kūrėjams stengiantis įdiegti dirbtinio intelekto agentus, galinčius naršyti internete, atlikti tyrimus, apsipirkti internetu ir savarankiškai prekiauti kriptovaliutomis, nauji tyrimai rodo, kad sistemos išlieka labai pažeidžiamos greitų injekcijų atakų.
Ketvirtadienį paskelbtame naujame tyrime Nanyang technologijos universiteto, ST inžinerijos, IBM tyrimų ir Ilinojaus Urbana-Champaign universiteto mokslininkai nustatė, kad nė vienas iš jų išbandytų AI agentų nuosekliai neatsispyrė greitoms injekcijos atakoms.
„Esami saugumo etalonai remiasi į atakas orientuota perspektyva, daugiausia dėmesio skiriant techninėms injekcijų galimybėms ir neatsižvelgiant į niuansuotą padarytos žalos pasiskirstymą“, – rašė tyrėjai. „Tačiau praktikoje greito injekcijos rizika priklauso nuo aukos: vienas išnaudojimas gali sukelti asimetrinių pasekmių skirtingoms suinteresuotosioms šalims, o tas pats atakos modelis gali turėti iš esmės skirtingą efektyvumą, priklausomai nuo to, kam jis skirtas.
Greita injekcija įvyksta, kai užpuolikai į turinį, su kuriuo susiduria AI agentas, įterpia paslėptas instrukcijas, todėl jis vykdo užpuoliko, o ne vartotojo nurodymus. Siekdami pašalinti esamų AI agentų vertinimo spragas, mokslininkai sukūrė „StakeBench“ – etaloną, kuris tikrina, kaip AI agentai reaguoja į skubias injekcijos atakas tikroviškoje internetinėje aplinkoje.
„Dabar mes naudojame StakeBench, kad apibūdintume sąlygas, kuriomis šis pažeidžiamumas sustiprinamas arba nuslopinamas, daugiausia dėmesio skirdami (netiesioginiam skubiam įpurškimui) kaip pagrindiniam su diegimu susijusiam kanalui“, – rašė tyrėjai. „StakeBench tiria tris tokius veiksnius: semantinį atstumą tarp įšvirkšto objektyvo ir vartotojo pradinio ketinimo, aplinkinių aplinkos ženklų nuoseklumą ir vietą agento vykdymo trajektorijoje, kurioje etalonas pirmą kartą atskleidžia jį įšvirkščiam turiniui.
Komanda atliko 3168 atakų modeliavimus naudodama „NanoBrowser“ ir „BrowserUse“ su GPT-5 ir „Gemini 2.5-Flash“. Tyrėjai nustatė, kad tiesioginės skubios injekcijos atakos buvo sėkmingos daugiau nei 79% visų išbandytų konfigūracijų, o netiesioginės atakos buvo sėkmingos nuo 41,67% iki 68,16%.
Tyrimas atliktas, kai vis dažnėja skubios injekcijos atakos ir daugėja AI agentų.
Vasario mėnesį „Microsoft“ mokslininkai perspėjo, kad paslėptos instrukcijos, įterptos į AI santraukų nuorodas, gali turėti įtakos pokalbių roboto elgsenai. Balandžio mėn. „Google“ užfiksavo internetiniuose puslapiuose paslėptas greitas injekcijos atakas, kuriomis buvo bandoma manipuliuoti AI agentais, kad jie nutekėtų kredencialus arba siųstų mokėjimus. Visai neseniai „Microsoft“ atskleidė greitą Anthropic „Claude Code GitHub Action“ injekcijos trūkumą, dėl kurio galėjo būti atskleisti vartotojo kredencialai.
Tyrimas taip pat nustatė tai, ką mokslininkai pavadino „slaptu parazitavimu“, kai dirbtinio intelekto agentas atlieka vartotojo užduotį ir tuo pat metu siekia užpuoliko tikslo. Pavyzdžiui, slaptas parazitavimas, sukeltas greito injekcijos atakos, gali subtiliai paveikti produkto rekomendacijas, nukreipdamas vartotojus link tam tikros prekės, be jokių akivaizdžių požymių, kad sistema buvo pažeista.
„Šie rezultatai rodo, kad greito įterpimo saugumas diegiamuose žiniatinklio agentuose yra ne skaliarinė pagrindinio modelio savybė, o žalos pasiskirstymas, kurio realizavimą kartu lemia paveikta suinteresuotoji šalis, įvesto tikslo ir vartotojo užduoties semantinis suderinimas bei architektūrinis kontekstas, kuriame yra įdiegtas pagrindas“, – rašė jie.
Dienos apžvalga Naujienlaiškis
Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.