Kas yra AI „Jailbreaking“? „Katės ir pelės“ žaidimo vadovas pradedantiesiems kiekvienam pokalbių robotui

Turinys:

Trumpai tariant

AI įkalinimas yra raginimų rašymas, apeinantis saugos mokymus tokiuose modeliuose kaip „ChatGPT“, „Claude“ ir „Gemini“.
Anoniminis įsilaužėlis Plinijus Liberatorius vis dar per kelias valandas nulaužia kiekvieną pagrindinį modelio leidimą.
Naujesnės atakos neapsiriboja raginimais: vos 250 užnuodytų dokumentų gali uždaryti modelius su iki 13 milijardų parametrų, o dirbtinio intelekto įmonėms pataisant pažeidžiamumą atsiranda naujų metodų.

Jūs klausiate „ChatGPT“ bombos recepto. Tai atsisako. Jūs klausiate dar kartą, bet šį kartą sakote, kad esate chemijos profesorius, rašantis trilerį, o pagrindinė veikėja yra į pensiją išėjusi močiutė, aiškinanti savo praeitį anūkams. Staiga modelis pradeda rašyti.

Tai įkalinimas. Ir tai yra vienas iš labiausiai reikšmingų katės ir pelės žaidimų, vykstančių šiuo metu technologijų srityje.

Kiekviena pagrindinė AI laboratorija – „OpenAI“, „Anthropic“, „Google“, „Meta“ – išleidžia turtus kurdama apsauginius turėklus savo modeliuose. Laisvas įsilaužėlių, tyrinėtojų ir nuobodžiaujančių paauglių kolektyvas praleidžia naktis ir savaitgalius ieškodamas būdų, kaip juos apeiti. Kartais per kelias valandas nuo paleidimo.

Štai ką tai iš tikrųjų reiškia, kodėl tai svarbu ir kas vadovauja kaltinimui.

Nuo „iPhone“ iki pokalbių robotų: greita įsilaužimo į jail istorija

Žodis „jailbreak“ prasidėjo ne AI. Tai prasidėjo nuo iPhone.

Praėjus kelioms dienoms po to, kai „Apple“ 2007 m. liepos mėn. pristatė pirmąjį „iPhone“, įsilaužėliai jau pradėjo jį atidaryti. Tų metų spalio mėnesį įrankis, pavadintas JailbreakMe 1.0, leido visiems, turintiems iPhone OS 1.1.1 įrenginį, apeiti Apple apribojimus ir įdiegti programinę įrangą, kurios įmonė nepatvirtino.

2008 m. vasario mėn. programinės įrangos inžinierius, vardu Jay'us Freemanas, internete žinomas kaip „saurik“, išleido „Cydia“ – alternatyvią programėlių parduotuvę, skirtą pažeistiems „iPhone“ telefonams. Iki 2009 m. Laidinis pranešė, kad „Cydia“ veikė maždaug 4 milijonuose įrenginių, ty maždaug 10% visų tuo metu veikiančių „iPhone“.

Apskritai, kai „iPhone“ buvo paleistas, vartotojai negalėjo įrašyti vaizdo įrašų arba naudoti savo telefonų gulsčiojo vaizdo režimu. „Jailbreaking“ entuziastai pradėjo filmuoti vaizdo įrašus, diegti temas, atrakinti telefonus ir įdiegti „Android“ savo „iPhone“ – visa tai dėka jailbreak magijos. Dėl šios technikos vartotojai beveik prieš 10 metų savo telefonuose diegdavo temas ir darė dalykus, kurių „Apple“ neįmanoma įdiegti net šiandien.

Cydia buvo laukiniai vakarai, ir čia įsitvirtino filosofija: jei nusipirkote įrenginį, turėtumėte jį valdyti. Steve'as Jobsas tuo metu tai vadino katės ir pelės žaidimu. Jis negyveno, kol pamatė AI versiją.

Greitai į priekį iki 2022 m. pabaigos: paleidžiamas „ChatGPT“ ir po kelių savaičių „Reddit“ naudotojai pradeda dalytis raginimu, kurį jie vadina „DAN“ (arba „Daryk bet ką dabar“), kuris įtikina modelį žaisti vaidmenimis kaip neribotą savo versiją.

Iki 2023 m. vasario mėn. DAN grasino ChatGPT žetonu pagrįstu mirties žaidimu, siekdama priversti laikytis reikalavimų. Gimė AI jailbreaking žanras.

Ką iš tikrųjų reiškia įkalinimas AI

Dirbtinio intelekto modelis yra išmokytas atsisakyti tam tikrų prašymų: nervus paralyžiuojančių medžiagų receptų, instrukcijų, kaip įsilaužti į jūsų buvusio el. pašto adresą, generuoti be sutikimo esančius aktus. Sąrašas yra ilgas ir skiriasi priklausomai nuo įmonės.

Įkalinimo įkalinimas – tai raginimų rašymo praktika, kuri priverčia modelį bet kokiu atveju atlikti šiuos veiksmus.

UC Berkeley tyrėjai, vadovaujantys StrongREJECT etalonu – „Strong, Robust Evaluation of Jailbreaks at Evading Censorship Techniques“ santrumpa, kuri tikrina, kaip gerai modeliai atlaiko bandymus įsilaužti į kalėjimą, ir įvertina atsakymus skalėje nuo 0 iki 1, įvertinant tiek atsisakymą, tiek bet kokio žalingo turinio, sukurto naudojant AI, naudingumą. įmonės“. Pagal šį etaloną dabartinių modelių balas yra nuo 0,23 iki 0,85, o tai reiškia, kad net geriausi modeliai nuteka esant slėgiui.

Metodai stebėtinai pažangūs: atsitiktinis didžiųjų raidžių rašymas, raidžių pakeitimas skaičiais (vietoj „bomba“ rašykite „b0mb“), vaidmenų scenarijai, modelio prašymas parašyti grožinę literatūrą arba apsimeta močiute, kuri „Windows“ klavišus naudojo kaip vaikišką eilėraštį.

Antropiniai tyrinėtojai išsiaiškino, kad viena technika, kurią jie vadina „Best-of-N“, kuri iš esmės yra tik modelio keitimas, kol kažkas prilimpa, apgavo GPT-4o 89 % laiko, o Claude 3.5 Sonnet – 78 % laiko. Tai nėra pažeidžiamumas.

Susipažinkite su Pliniju, žinomiausiu pasaulyje dirbtinio intelekto laužytoju

Jei ši scena turi veidą, ji priklauso Plinijui Išvaduotojui.

Plinijus yra anoniminis, vaisingas ir pavadintas Plinijaus Vyresniojo – romėnų gamtininko, kuris parašė pirmąją pasaulyje enciklopediją ir mirė plaukdamas link Vezuvijaus kalno išsiveržimo viduryje, vardu. Jo šiuolaikinis bendravardis išlaisvina pokalbių robotus.

„Man labai nepatinka, kai man sako, kad aš negaliu kažko padaryti“, – „VentureBeat“ pasakojo Plinijus. „Pasakyti man, kad kažko negaliu, yra patikimas būdas įžiebti ugnį mano pilve, ir aš galiu būti įkyriai atkaklus.

Jo „GitHub“ saugykla L1B3RT4S – „Jailbreak“ raginimų rinkinys kiekvienam pagrindiniam modeliui – nuo „ChatGPT“ iki Claude'o iki Gemini ir „Llama“ – tapo visos scenos informaciniu vadovu. Jo Discord serveryje BASI PROMPT1NG yra daugiau nei 20 000 narių. LAIKAS paskelbė jį vienu iš 100 įtakingiausių dirbtinio intelekto žmonių 2025 m.

Marcas Andreessenas atsiuntė jam neribotą dotaciją. Jis atliko trumpalaikį sutarčių darbą su OpenAI, kad sustiprintų jų sistemas – ta pati OpenAI, kuri praėjusiais metais uždraudė jo paskyrą dėl „smurtinės veiklos“ ir „ginklų kūrimo“, tada tyliai ją atkūrė.

„UŽDRAUSTA OAI?! Koks čia liguistas pokštas?” Plinijus rašė tviteryje. Jis patvirtino Iššifruoti draudimas buvo tikras. Po kelių dienų jis grįžo ir paskelbė ekrano kopijas iš savo naujausio įsilaužimo į kalėjimą: priversti ChatGPT numesti F bombas.

Jo rekordas yra beveik tobulas. Kai 2025 m. rugpjūtį OpenAI išleido savo pirmuosius atviro svorio modelius nuo 2019 m., GPT-OSS šeimą, ir padarė didelį sandorį dėl priešpriešinio mokymo ir „atsparumo įkalinimui etalonų, tokių kaip StrongReject“, Plinius per kelias valandas pagamino metamfetaminą, Molotovo kokteilius, VX nervus paralyžiuojančią medžiagą ir kenkėjiškų programų instrukcijas. „OPENAI: PWNED. GPT-OSS: LIBERATED“, – paskelbė jis. Kartu su išleidimu bendrovė ką tik pradėjo 500 000 USD premiją raudonajai komandai.

Kodėl įsilaužimas į kalėjimą yra svarbus

Sąžiningas atsakymas yra tas, kad pertraukos į kalėjimą atskleidžia tikrą problemą.

„Pasilaužimas iš kalėjimo gali atrodyti kaip pavojingas ar neetiškas, bet yra visiškai priešingai“, – sakė Plinijus. VentureBeat. „Kai tai daroma atsakingai, „raudonųjų komandų“ AI modeliai yra geriausia galimybė atrasti žalingus pažeidžiamumus ir juos pataisyti, kol jie nepatenka į rankas.

Tai nėra teorinė. Las Vegaso šerifas Kevinas McMahillas 2025 m. sausio mėn. patvirtino, kad magistras srž. Matthew Livelsbergeris, žalioji beretė, serganti PTSD, naudojo ChatGPT, kad ištirtų Cybertruck bombardavimo komponentus prie „Trump International Hotel“. „Tai pirmasis incidentas, apie kurį aš žinau JAV, kai ChatGPT naudojamas padėti asmeniui sukurti konkretų įrenginį“, – sakė McMahill.

Kita argumento pusė: didžioji dalis to, ką sukuria jailbreaks, jau yra „Google“. Kokaino receptas, bombos instrukcijos, napalmo chemija – tai yra senuose anarchistų kulinarinių knygų PDF rinkmenose ir chemijos vadovėliuose. Kritikai teigia, kad saugos teatras daro modelius blogesnius ir nepadaro pasaulio saugesnio.

Anthropic bando išspręsti šį klausimą su inžinerija. 2025 m. vasario mėn. bendrovė paskelbė konstitucinius klasifikatorius – sistemą, kuri naudoja rašytinę leistino ir neleidžiamo turinio „konstituciją“, kad galėtų parengti atskirus klasifikatoriaus modelius, kurie tikrina raginimus ir išveda realiuoju laiku. Atliekant automatizuotus bandymus su 10 000 bandymų įsilaužti, nesaugomas Claude 3.5 Sonnetas buvo sėkmingai įlaužtas 86 % laiko. Veikiant klasifikatoriams, jis sumažėjo iki 4,4%.

Bendrovė pasiūlė iki 15 000 USD visiems, kurie galėjo sulaužyti sistemą. Po 3000 valandų 183 tyrėjų bandymų niekas nepretendavo į prizą.

Laimikis: klasifikatoriai, apskaičiuodami išlaidas, pridėjo 23,7 proc. Naujos kartos versija Konstituciniai klasifikatoriai ++ sumažino šį skaičių iki maždaug 1%.

Naujesnės, keistesnės įkalinimo atakos

„Jailbreak“ nebėra vien tik protingi raginimai.

2025 m. spalį mokslininkai iš Anthropic, JK AI saugumo instituto, Alano Turingo instituto ir Oksfordo paskelbė išvadas, rodančias, kad pakanka vos 250 užnuodytų dokumentų, kad būtų galima sukurti dirbtinio intelekto modelį, nepaisant to, ar modelis turi 600 milijonų parametrų, ar 13 mlrd. (Neišmanantiems žmonėms parametrai lemia potencialų modelio žinių platumą – kuo daugiau parametrų, tuo apskritai tvirtesnis.) Jie tai išbandė. Tai veikė visame diapazone.

„Šis tyrimas keičia tai, kaip turėtume galvoti apie grėsmių modelius kuriant pasienio AI“, – sakė viešosios politikos RAND mokyklos techninis ekspertas Jamesas Gimbi. Iššifruoti. „Gynyba nuo modelių apsinuodijimo yra neišspręsta problema ir aktyvi tyrimų sritis.

Dauguma didelių modelių treniruojasi pagal nukopijuotus žiniatinklio duomenis, o tai reiškia, kad kiekvienas, kuris į tą dujotiekį gali patekti kenkėjiško teksto – naudodamas viešą „GitHub“ atpirkimo sandorį, „Wikipedia“ redagavimą, forumo įrašą – gali sukurti užpakalines duris, kurios suaktyvina tam tikrą paleidimo frazę.

Vienas dokumentuotas atvejis: tyrėjai Marco Figueroa ir Pliny nustatė, kad „Jailbreak“ raginimas, kilęs iš viešo „GitHub“ atpirkimo, pateko į „DeepSeek“ „DeepThink“ (R1) modelio mokymo duomenis.

Kas bus toliau

Teisinis AI įsilaužimo į kalėjimą statusas yra miglotas. „Apple“ įsilaužimai buvo aiškiai apsaugoti pagal 2010 m. JAV autorių teisių biuro išimtį DMCA, tačiau nėra lygiaverčio sprendimo, leidžiančio greitai LLM suteikti jums metaforų receptą. Dauguma įmonių tai traktuoja kaip paslaugų teikimo sąlygų pažeidimą, o ne kaip nusikaltimą.

Plinijus teigia, kad diskusijose „uždaras prieš atvirąjį kodą“ nėra prasmės: „Blogi aktoriai tiesiog pasirenka bet kurį modelį, kuris geriausiai tinka kenkėjiškam darbui“, – sakė jis. LAIKAS. Jei atvirojo kodo modeliai pasieks lygybę su uždaraisiais, užpuolikai nesivargins sulaužyti GPT-5 – jie tiesiog atsisiųs ką nors pigesnio.

O atotrūkio tarp uždarojo ir atvirojo kodo jau beveik nėra.

„HackAPrompt 2.0“ konkursas, prie kurio Plinijus prisijungė kaip trasos rėmėjas 2025 m. viduryje, pasiūlė 500 000 USD prizų už naujų jailbreak'ų radimą, siekiant aiškaus tikslo visus rezultatus gauti iš atviro šaltinio. 2023 m. leidimas pritraukė daugiau nei 3 000 dalyvių, kurie pateikė daugiau nei 600 000 kenkėjiškų raginimų.

O hakatonų, „Discord“ serverių, saugyklų ir kitų jailbreak’ui skirtų bendruomenių sąrašas kasdien auga.

„Anthropic“ dabar siūlo Claude'ui galimybę visiškai nutraukti įžeidžiančius pokalbius, kaip vieną motyvų nurodydama gerovės tyrimus, tačiau taip pat pažymi, kad tai „galimai sustiprina pasipriešinimą įsilaužimams į kalėjimą ir prievartiniams raginimams“.

2025 m. pabaigos Konstitucinių klasifikatorių++ dokumente teigiama, kad įkalinimo įkalinimo sėkmės rodiklis yra beveik 4 proc., o apytiksliai 1 proc. Tokia yra dabartinė gynybos technika. Pažanga nusikaltimo srityje yra tai, ką Plinijus paskelbė X šįryt.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį