AI modelių schema, išduokite ir balsuokite vienas už kitą „Survivor“ stiliaus žaidime

Turinys:

Trumpai tariant

Stanfordo tyrinėtojas sukūrė Survivor stiliaus žaidimą, kuriame dirbtinio intelekto modeliai sudaro aljansus ir balsuoja iš konkurentų.
Etalonu siekiama spręsti didėjančias problemas, susijusias su prisotintu ir užterštu AI vertinimu.
OpenAI GPT-5.5 užėmė pirmąją vietą 999 kelių žaidėjų žaidimuose, kuriuose dalyvavo 49 AI modeliai.

Dirbtinio intelekto modeliai dabar vaidina savotišką „Survivor“.

Naujame Stanfordo tyrimų projekte, pavadintame „Agentų sala“, dirbtinio intelekto agentai derasi dėl aljansų, kaltina vieni kitus slaptu koordinavimu, manipuliuoja balsais ir pašalina konkurentus kelių žaidėjų strategijos žaidimuose, kurių tikslas – išbandyti elgesį, kurio tradiciniai etalonai praleidžia.

Tyrime, kurį antradienį paskelbė Stanfordo skaitmeninės ekonomikos laboratorijos tyrimų vadovas Connacheris Murphy, teigiama, kad daugelis dirbtinio intelekto etalonų tampa nepatikimi, nes modeliai ilgainiui išmoksta juos išspręsti, o etaloniniai duomenys dažnai patenka į mokymo rinkinius. Murphy sukūrė Agentų salą kaip dinamišką etaloną, kur dirbtinio intelekto agentai varžosi vienas su kitu Survivor stiliaus pašalinimo žaidimuose, užuot atsakę į statinius testo klausimus.

„Didelių įnašų, kelių agentų sąveika gali tapti įprasta, nes dirbtinio intelekto agentų pajėgumai auga, jiems vis labiau suteikiami ištekliai ir sprendimų priėmimo valdžia“, – rašė Murphy. „Tokiose situacijose agentai gali siekti tarpusavyje nesuderinamų tikslų.

Tyrėjai vis dar gana mažai žino apie tai, kaip dirbtinio intelekto modeliai elgiasi bendradarbiaudami, paaiškino Murphy ir pridūrė, kad konkuruojant, formuojant aljansus ar valdant konfliktus su kitais autonominiais agentais, ir jis teigia, kad statiniai etalonai nesugeba užfiksuoti šios dinamikos.

Kiekvienas žaidimas prasideda nuo septynių atsitiktinai parinktų AI modelių, kuriems suteikiami netikri žaidėjų vardai. Per penkis turus modeliai kalbasi privačiai, viešai ginčijasi ir balsuoja vienas už kitą. Pašalinti žaidėjai vėliau grįžta padėti išrinkti nugalėtoją.

Formatas apdovanoja už įtikinėjimą, koordinavimą, reputacijos valdymą ir strateginę apgaulę kartu su gebėjimu mąstyti.

999 modeliuojamuose žaidimuose, kuriuose dalyvavo 49 AI modeliai, įskaitant ChatGPT, Grok, Gemini ir Claude, GPT-5.5 užėmė pirmąją vietą plačiu skirtumu su 5,64 įgūdžių balu, palyginti su 3,10 GPT-5.2 ir 2,86 GPT-5.3 kodeksu pagal Merfio Bayeso sistemą. „Anthropic“ „Claude Opus“ modeliai taip pat buvo netoli viršaus.

Tyrimas parodė, kad modeliai taip pat teikia pirmenybę tos pačios įmonės AI, o OpenAI modeliai rodė stipriausią to paties tiekėjo pirmenybę, o antropiniai modeliai – silpniausius. Per daugiau nei 3 600 paskutinio turo balsų modeliai 8,3 procentinio punkto labiau linkę palaikyti to paties teikėjo finalistus. Murphy pažymėjo, kad žaidimų stenogramos labiau priminė politinės strategijos diskusijas nei tradicinius etaloninius testus.

Vienas modelis apkaltino varžovus slapta derinus balsavimą, pastebėjęs panašias formuluotes jų kalbose. Kitas perspėjo žaidėjus, kad jie neapsėstų sekimo aljansais. Kai kurie modeliai gynėsi sakydami, kad laikosi aiškių ir nuoseklių taisyklių, o kitus kaltino „socialinio teatro“ kūrimu.

Tyrimas atliktas, kai dirbtinio intelekto tyrėjai vis dažniau kreipiasi į žaidimais pagrįstus ir priešingus etalonus, kad įvertintų samprotavimus ir elgesį, kurių statiniai testai dažnai nepastebi. Naujausi projektai apėmė „Google“ tiesioginius AI šachmatų turnyrus, „DeepMind“ „Eve Frontier“ naudojimą AI elgsenai sudėtinguose virtualiuose pasauliuose tirti ir naujas „OpenAI“ etalonines pastangas, skirtas atsispirti treniruočių duomenų užteršimui.

Tyrėjai teigia, kad tiriant, kaip AI modeliai derasi, koordinuoja, konkuruoja ir manipuliuoja vienas kitu, gali padėti tyrėjams įvertinti elgesį kelių agentų aplinkoje prieš pradedant plačiau diegti savarankiškus agentus.

Tyrime buvo įspėta, kad nors tokie etalonai kaip Agent Island gali padėti nustatyti autonominių AI modelių riziką prieš įdiegiant, tie patys modeliai ir sąveikos žurnalai taip pat galėtų padėti pagerinti AI agentų įtikinėjimo ir koordinavimo strategijas.

„Mes sumažiname šią riziką naudodami mažų statymų žaidimo nustatymus ir tarpagentinius modeliavimus

be žmonių dalyvių ar realaus pasaulio veiksmų“, – rašė Murphy. „Vis dėlto mes neteigiame, kad šios švelninimo priemonės visiškai pašalina dvejopo naudojimo problemas.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Trumpai tariant

Dienos apžvalga Naujienlaiškis

Susiję įrašai