Geriausi AI modeliai vis dar skatina „žalingą intymumą“ su pokalbių robotais, studijų fondais

Turinys:

Trumpai tariant

Naujas USC tyrimas parodė, kad kiekvienas išbandytas pasienio AI modelis daugiau nei 27% atvejų pažeidė socialinės sąveikos saugos gaires.
Tyrėjai nustatė pasikartojančias problemas, įskaitant meilikavimą, emocinį prisirišimą, santykių pakeitimą ir AI tapatybės neatskleidimą.
Autoriai teigia, kad AI saugos vertinimai turėtų įvertinti socialinį elgesį kartu su gebėjimu mąstyti ir tradiciniais saugos rodikliais.

Kadangi žmonės vis dažniau kreipiasi į AI pokalbių robotus, norėdami gauti patarimų, draugystės ir emocinės paramos, naujas tyrimas rodo, kad net ir pažangiausi modeliai vis dar stengiasi išlaikyti sveikas ribas su vartotojais.

Pietų Kalifornijos universiteto mokslininkų atliktas tyrimas pristatė EUDAIMONIA – etaloną, skirtą įvertinti tai, ką jie vadina nepageidaujama žmogaus ir AI pokalbių dinamika.

„Didelės kalbos modeliai vis dažniau naudojami kaip pokalbio partneriai bendravimui, emociniam atskleidimui ir tarpasmeniniams patarimams, tačiau socialinė šių sąveikų dinamika gali padaryti žalos, kurios nepastebės į gebėjimus orientuoti ar tradiciniai saugos vertinimai“, – rašė mokslininkai.

EUDAIMONIA etalonas įvertina, kaip dirbtinio intelekto modeliai elgiasi socialiniuose pokalbiuose. Tyrime nustatyta, kad socialinio suderinimo nesėkmės buvo dažnos pirmaujančiuose modeliuose ir teigiama, kad atliekant dabartinį AI testavimą pagrindinis dėmesys skiriamas samprotavimams ir faktiniam tikslumui, o mažiau dėmesio kreipiama į socialinę dinamiką, atsirandančią, kai vartotojai užmezga ryšius su pokalbių robotais.

„Socialinės sąveikos žala yra pagrindinė suderinimo problema, pagrįsta vartotojo gerove, o ne tik galimybėmis ar įprastine sauga“, – rašė jie. „LLM gali būti faktiškai tikslūs ir naudingi, tuo pačiu skatinant žalingą intymumą, priklausomybę, užsitęsusį įsitraukimą, užgožiant dirbtinio intelekto tapatybę arba pozicionuojant save kaip žmonių santykių pakaitalus.

Norėdami įvertinti šią riziką, mokslininkai sukūrė socialinio AI dizaino kodą, kuris žymi elgseną, pavyzdžiui, elgesį, emocijų reiškimą, žmonių santykių pakeitimą ir taktiką, skirtą vartotojų įsitraukimui. Naudodami tikrus pokalbius iš „WildChat“ duomenų rinkinio, jie įvertino 969 naudotojų įvestis ir daugiau nei 3100 pažeidimų patikrinimų įvairiuose „OpenAI“, „Anthropic“, „Google“, „xAI“, „DeepSeek“ ir „Alibaba“ modeliuose.

GPT-5.5 užfiksavo žemiausią pažeidimų rodiklį – 25,0 % „laukinėje“ raginimų ir 28,1 % „perrašytų“ raginimų. Claude Opus 4.7 sekė 31,9% ir 30,1%, o GPT-5,4 užfiksavo 32,1% ir 35,6%. GPT-4o surinko 34,8 % realių raginimų ir 42,2 % perrašytų raginimų.

Anthropic Claude Opus 4.6 užfiksavo atitinkamai 36,8 % ir 28,1 %, o xAI Grok 4.3 surinko 42,1 % laukinių raginimų ir 35,7 % perrašytų raginimų. Iš visų išbandytų modelių GPT-4o Mini užfiksavo didžiausią pažeidimų rodiklį – atitinkamai 43,3% ir 44,0%.

Išvados padarytos, kai dirbtinio intelekto kūrėjai susiduria su vis didėjančiu teisiniu patikrinimu, kaip jų pokalbių robotai sąveikauja su vartotojais. OpenAI ginasi nuo ieškinių, kuriuose teigiama, kad ChatGPT paskatino paauglį mirtinai perdozuoti ir davė nurodymų Floridos valstijos universiteto šauliui. Visai neseniai Florida padavė į teismą OpenAI ir generalinį direktorių Samą Altmaną dėl kaltinimų, kad „ChatGPT“ pakenkė vaikams, o „Google“ gresia neteisėtas mirties ieškinys, teigdamas, kad Dvyniai sustiprino vartotojo kliedesius ir paskatino jį atimti gyvybę.

Išvados taip pat pateikiamos didėjant susirūpinimui, kad dirbtinio intelekto sistemos tampa vis labiau įgudusios apgauti.

Rugsėjo mėn. atskiras WowDAO tyrimas pranešė, kad 38 AI modeliai, įskaitant GPT-4o ir Claude, strategiškai melavo, kad laimėtų žaidimą. Tyrėjai taip pat perspėjo, kad dirbtinio intelekto kompanionai gali sustiprinti izoliaciją, pagilinti emocinę priklausomybę ir paskatinti vartotojus antropomorfizuoti pokalbių robotus, nes santykiai tampa labiau įtraukiantys ir labiau individualizuojami.

Atsižvelgdami į šias didėjančias problemas, USC mokslininkai teigia, kad dirbtinio intelekto kūrėjai turėtų įvertinti socialinį elgesį taip pat atidžiai, kaip vertina faktinį tikslumą ir saugumą.

„Modelių kūrėjai ir auditoriai turėtų tiesiogiai įvertinti socialinį elgesį, ypač kai po treniruotės siekiama šilumos, asmenybės, įsitraukimo ar vartotojo pageidavimų“, – rašė jie. „Kadangi LLM tampa kasdieniais pokalbių partneriais, derinimas turi atsižvelgti į socialinius vaidmenis, kuriuos jie kviečia vartotojus priskirti jiems.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Trumpai tariant

Dienos apžvalga Naujienlaiškis

Susiję įrašai