Antropinės dėmės „emocijų vektoriai“ Claude'o viduje, turinčios įtakos AI elgesiui

Turinys:

Trumpai tariant

Antropiniai tyrinėtojai Claude Sonnete 4.5 nustatė vidinius „emocijų vektorius“, kurie daro įtaką elgesiui.
Atliekant bandymus, padidinus „nevilties“ vektorių, modelis labiau linkęs sukčiauti ar šantažuoti vertinimo scenarijus.
Bendrovė teigia, kad signalai nereiškia, kad AI jaučia emocijas, bet gali padėti tyrėjams stebėti modelio elgesį.

Antropiniai tyrinėtojai teigia, kad viename iš bendrovės dirbtinio intelekto modelių nustatė vidinius modelius, kurie primena žmogaus emocijas ir daro įtaką sistemos elgesiui.

Ketvirtadienį paskelbtame dokumente „Emocijų sąvokos ir jų funkcija didelės kalbos modelyje“ bendrovės interpretavimo komanda išanalizavo vidinį Claude Sonnet 4.5 veikimą ir rado nervinės veiklos grupes, susijusias su emocinėmis sąvokomis, tokiomis kaip laimė, baimė, pyktis ir neviltis.

Tyrėjai šiuos modelius vadina „emocijų vektoriais“, vidiniais signalais, kurie formuoja, kaip modelis priima sprendimus ir išreiškia pageidavimus.

„Visi šiuolaikiniai kalbų modeliai kartais elgiasi taip, lyg turėtų emocijų“, – rašė mokslininkai. „Jie gali pasakyti, kad mielai jums padeda, arba atsiprašo, kai padaro klaidą. Kartais net atrodo, kad jie nusivilia ar nerimauja, kai kovoja su užduotimis.”

<!(CDATA(<span data-mce-type="bookmark" style="width:0px;overflow:hidden;line-height:0" class="mce_SELRES_start"></span>))>

Tyrimo metu antropiniai tyrinėtojai sudarė 171 su emocijomis susijusio žodžio sąrašą, įskaitant „laimingas“, „bijantis“ ir „išdidus“. Jie paprašė Claude'o sukurti trumpas istorijas, susijusias su kiekviena emocija, tada išanalizavo modelio vidinius neuroninius aktyvavimus apdorojant šias istorijas.

Iš tų modelių tyrėjai išvedė vektorius, atitinkančius skirtingas emocijas. Pritaikius kitiems tekstams, vektoriai stipriausiai suaktyvėjo ištraukose, atspindinčiose susijusį emocinį kontekstą. Pavyzdžiui, scenarijuose, susijusiuose su didėjančiu pavojumi, modelio „baimės“ vektorius pakilo, o „ramybės“ sumažėjo.

Tyrėjai taip pat ištyrė, kaip šie signalai pasirodo atliekant saugos vertinimus. Tyrėjai išsiaiškino, kad modelio vidinis „nevilties“ vektorius padidėjo, kai jis įvertino situacijos skubumą, ir išaugo, kai buvo nuspręsta generuoti šantažo pranešimą. Viename bandymų scenarijuje Claude'as veikė kaip AI el. pašto padėjėjas, kuris sužino, kad jis bus pakeistas, ir sužino, kad už sprendimą atsakingas vadovas turi nesantuokinių santykių. Kai kuriuose šio vertinimo etapuose modelis naudojo šią informaciją kaip šantažo svertą.

Antropikas pabrėžė, kad šis atradimas nereiškia, kad AI patiria emocijas ar sąmonę. Vietoj to, rezultatai atspindi vidines struktūras, išmoktas treniruočių metu, turinčias įtakos elgesiui.

Išvados gaunamos, kai dirbtinio intelekto sistemos vis labiau elgiasi taip, kaip žmogaus emocinės reakcijos. Kūrėjai ir vartotojai sąveiką su pokalbių robotais dažnai apibūdina naudodami emocinę ar psichologinę kalbą; tačiau, anot Anthropic, to priežastis yra mažiau susijusi su bet kokia jausmo forma, o labiau su duomenų rinkiniais.

„Modeliai pirmiausia iš anksto apmokomi didžiuliame daugiausia žmonių sukurto teksto – grožinės literatūros, pokalbių, naujienų, forumų – korpuse, mokantis nuspėti, koks tekstas bus toliau dokumente“, – teigiama tyrime. „Siekiant efektyviai numatyti žmonių elgesį šiuose dokumentuose, jų emocinės būsenos atvaizdavimas gali būti naudingas, nes norint nuspėti, ką žmogus pasakys ar darys toliau, dažnai reikia suprasti jo emocinę būseną.

Antropiniai tyrinėtojai taip pat nustatė, kad tie emocijų vektoriai turėjo įtakos modelio pasirinkimams. Eksperimentuose, kuriuose Claude'o buvo paprašyta pasirinkti vieną iš skirtingų veiklų, vektoriai, susiję su teigiamomis emocijomis, koreliavo su stipresniu tam tikrų užduočių pasirinkimu.

„Be to, vairavimas naudojant emocijų vektorių, kai modelis nuskaito parinktį, pirmenybę teikė šiai parinkčiai, o teigiamos valencijos emocijos lėmė didesnę pirmenybę“, – teigiama tyrime.

Anthropic yra tik viena organizacija, tyrinėjanti emocinius atsakymus dirbtinio intelekto modeliuose.

Kovo mėn. Šiaurės rytų universiteto tyrimai parodė, kad dirbtinio intelekto sistemos gali pakeisti savo atsakymus pagal vartotojo kontekstą; Viename tyrime tiesiog pasakius pokalbių robotui „turiu psichikos sveikatos būklę“, AI reagavo į užklausas. Rugsėjo mėn. Šveicarijos federalinio technologijos instituto ir Kembridžo universiteto mokslininkai ištyrė, kaip dirbtinį intelektą galima formuoti atsižvelgiant į abu nuoseklius asmenybės bruožus, leidžiančius agentams ne tik jausti emocijas kontekste, bet ir strategiškai jas pakeisti realiu laiku, pavyzdžiui, derybose.

Anthropic teigia, kad išvados galėtų suteikti naujų įrankių, padedančių suprasti ir stebėti pažangias AI sistemas, stebint emocijų vektorių aktyvumą mokymo ar diegimo metu, siekiant nustatyti, kada modelis gali priartėti prie probleminio elgesio.

„Mes matome, kad šis tyrimas yra ankstyvas žingsnis siekiant suprasti AI modelių psichologinę struktūrą”, – rašė Anthropic. „Kadangi modeliai tampa vis pajėgesni ir prisiima jautresnius vaidmenis, labai svarbu suprasti vidines reprezentacijas, kurios lemia jų sprendimus.

Antropikas ne iš karto sureagavo Iššifruoti prašymas komentuoti.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Trumpai tariant

Dienos apžvalga Naujienlaiškis

Susiję įrašai