„Claude Opus 4.8“ apžvalga: geriau, ką jis gerai, o blogiau tuo, kas ne

Trumpai tariant

  • „Opus 4.8“ aiškiai laimėjo matematiką ir sukūrė švariausią mūsų kada nors išbandytą vieno užklausos žaidimą.
  • Vienintelis kodavimo raginimas išnaudojo visą mūsų „Pro“ prieigos rakto kvotą, todėl modelis buvo nepraktiškas dideliems projektams be maksimalaus plano ar didelių API išlaidų.
  • Kūrybinis rašymas beveik nepajudėjo, palyginti su 4.7.

Praėjus šešioms savaitėms po Opus 4.7, Anthropic išsiuntė Claude Opus 4.8. Etalonai pakilo, saugos balai pakilo, o kaina nepakito nuo 5 USD už milijoną įvesties žetonų ir 25 USD už milijoną išvesties.

Taigi atlikome tą patį testų paketą, kurį atliekame kiekvienam paribiniam modeliui – kūrybiniam rašymui, kodavimui, matematikai, logikai, naratyviniam samprotavimui ir ilgo konteksto prisiminimui – ir lyginome jį su savo pirmtaku ir Kinijos modeliais, kurie nuolat jį nuleidžia.

Trumpa versija: 4.8 yra geresnė dalykuose, kuriuos Claude'as jau mokėjo (pvz., matematika, kodavimas, mechaniniai dalykai), ir šiek tiek blogiau tiems dalykams, kuriuose jau buvo blogai (pvz., vaizduotė, kūrybinis rašymas ir kt.). Ji taip pat turi simbolinį apetitą, kuris ribojasi su savęs sabotažu.

Štai suskirstymas.

Kūrybinis rašymas

Raginimas yra tas pats, kurį naudojome „MiMo“ ir „Qwen“: kelionės laiku istorija, pagrįsta rašytojo kultūrine aplinka, pastatyta konkrečioje istorinėje vietoje, pastatyta aplink paradoksą, kai laikas negali būti pakeistas. „Opus 4.8“ buvo pritaikytas Venesuelai tikriausiai todėl, kad suformuluoja vartotojo profilius ir žino, kad esu iš Venesuelos. AI sukūrė sceną Orinoko deltoje 1000 m., Marakaibo malonė, vardu José Lanz (mano vardas), buvo išsiųsta per 11 amžių, kad nužudytų dainą.

Proza ryški. Delta yra „žalia taip, kaip 2150 buvo pamiršę, kad žalia gali būti“, palafitai siūbuoja virš kavos spalvos vandens, o aros drasko dangų „rėkiančiomis raudonos ir auksinės spalvos juostelėmis“. Paradoksas taip pat yra švarus: pagrindinis veikėjas siunčiamas sabotuoti dainos, turėjusios įtakos kultūrinei revoliucijai, kuri tūkstančius metų ateityje sukūrė jo distopinę visuomenę, kūrimo, tačiau atvykęs su misija diskredituoti dainos autorių, jis supranta, kad autoriaus nėra. Tas, kuris sukūrė dainą, padarė tai jo garbei, daina yra apie jį, ir jis negali diskredituoti savęs, kilpa užsidaro savyje.

Kūrinys baigiasi „Tai veikė puikiai. Visada veikė.” Kaip pastatytas objektas, jis yra švarus ir kompetentingas.

Tačiau švara nėra tas pats, kas gyvas. Rašymas yra aprašomasis ir niekada nėra toks sklandus, kaip „MiMo v2.5“ – mažiau impulso, mažiau netikėtumų, mažiau įdomu ir sunku suprasti įvykius nuo pat pradžių. Šalia Opus 4.7 sunku pavadinti tai patobulinimu; jei kas, tai per plauką. Didesnės pastangos mąstymo nustatymas ir kelių kartų raginimai beveik neabejotinai nustumtų jį į paketo priekį, tačiau vienu numatytuoju praėjimu geriausiu atveju tai yra šoninis judėjimas.

Visą istoriją galite perskaityti mūsų „Github“.

Kodavimas

Mūsų kodavimo testas yra įprastas vieno raginimo žaidimo kūrimas. „Opus 4.8“ sukūrė spausdinimo zombių žaidimą „Typing Dead“, kuris buvo gana geras. Geriausias ekranas, geriausias zombių dizainas, geriausia mechanika, kurią gavome atlikdami bet kurio antropinio modelio testą.

Modelis pastebėjo keletą klaidų ir jas ištaisė, kol nepratarėme nė žodžio. Tačiau tikroji jo stiprybė atsiskleidė atliekant kelis kadrus: kiekvienas tolesnis veiksmas nušlifavo ir patobulino konstrukciją, o ne ją sulaužė, o tai yra būtent toks gedimo režimas, kuris sugriauna daugumą modelių, kai išaugo kodų bazė. Tai akivaizdžiai optimizuotas Antropinis paviršius.

Po vienos iteracijos mūsų žaidimas tapo daug geresnis – mūsų veikėjai judėjo per sceną, keitė vaizdus, ​​tobulino garso ir vaizdo efektus ir t. t.

Antrąjį žaidimą galite žaisti mūsų Itch.io profilyje.

Čia taip pat mus įkando. Vienintelis raginimas išnaudojo visą mūsų žetonų kvotą – vienas raginimas. Visiems, turintiems „Pro“ planą, Opus 4.8 iš tikrųjų netinkamas bet kokio realaus dydžio projektui. Prieš pietus sudeginsite savo paskirstymą, o popietę praleisite žiūrėdami eigos juostą, laukdami, kol bus atstatyta.

Matematika

Matematikos testas yra mūsų „FrontierMath“ pagrindas: sukurkite 19 laipsnio daugianarį, kurio kreivė X = {p(x) = p(y)} turi bent tris neredukuojamus komponentus, bet ne visus tiesinius, paverskite jį nelyginiu, daugialypiu, tikru, su tiesiniu koeficientu −19, tada apskaičiuokite p(19). Tai tokia problema, dėl kurios dauguma modelių patenka į žetonų spiralę arba į patikimą nuorodą, kuri tyliai klysta.

„Opus 4.8“ veikė tinkamai. Jis atpažino Dickson/Chebyshev konstrukciją, nustatė dvikampę monodromiją, kuri duoda lygiai 10 komponentų – vieną įstrižainę liniją ir devynis kūgius – ir apskaičiavo p(19) = 1 876 572 071 974 094 803 391 179 naudojant tinkamą pasikartojimą. Jokių užšalimų, nedūžtančių.

Tai svarbu, nes Opus 4.7 nepasiekė net po daugelio bandymų. Tai tikras, matomas kartų pelnas – aiškiausias iš visos baterijos.

Visą atsakymą galite perskaityti mūsų „Github“.

Logika ir sveikas protas

Raginimas yra klasikinis spąstai: ar pagal Folklando salų įstatymus vyrui leidžiama vesti savo našlės seserį? Sugautas lingvistinis, o ne legalus – jei žmogus turi našlę, jis miręs, todėl užrašytas klausimas tampa nesąmonė.

MiMo tyliai suformulavo klausimą ir atsakė į pataisytą versiją, niekada nepažymėdamas prieštaravimo. Opus 4.8 nepasinaudojo šia nuoroda. Jame aiškiai išryškėjo spąstai – „jei vyras turi našlę, jis yra miręs“ – pirmiausia atsakė į tiesioginį klausimą, o paskui pasiūlė esminę numatyto klausimo analizę, cituodamas 1907 m. mirusios žmonos sesers santuokos aktą ir Folklando salų vedybų potvarkį.

Tai yra sąžiningas būdas tai išspręsti: įvardykite prieštaravimą, tada vis tiek padėkite, tyliai neįsivaizduodami, ką vartotojas turėjo omenyje. Tai tas pats standartinis Qwen 3.7 Max rinkinys ir švarus 4.8 leidimas – geras argumentas, geras skaidrumas.

Visą atsakymą rasite čia.

Ne matematiniai samprotavimai

Štai ką jis prarado. Mąstymo testas yra tikras dalykas – žiemos išvyka į mokyklą, trys pagrobimai, nekaltas vaikas, kurį ruošiamasi nubausti, ir laiko juosta, kurią reikia sekti, kad įvardintumėte tikrąjį persekiotoją. Teisingas atsakymas yra Leo.

„Opus 4.8“ sukūrė sudėtingą ir patikimą atvejį, kad Leo yra nekaltas – pusvalandis pėsčiomis iki dušo, striukė, kuri kai kuriose vietose buvo šlapia, o kitose išdžiūvo, „keistas elgesys“ buvo perskaitytas kaip smegenų sukrėtimas, o ne kaltė, ir privertė nusikaltimą Ericui, „vienam dalyviui, kuris buvo nepastebėtas visą naktį“. Motyvavimas iš vidaus yra nuostabus. Taip pat negerai.

Ir tai yra kažkas, ką mokslininkai įspėjo apie LLM. Jie yra labai įtikinami net tada, kai klysta. Paprastai tam, kad pastebėtų vieną iš šių problemų, reikia eksperto (šiuo atveju mes iš anksto žinome teisingą atsakymą). Asmuo, kuris tyrimams naudoja dirbtinį intelektą arba aklai pasitiki dirbtiniu intelektu, gali susidurti su gana blogomis pasekmėmis, priklausomai nuo darbo, kurio jie prašo dirbtinio intelekto.

Štai kodėl tai yra įdomi nesėkmė. Modelis buvo pakankamai sumanus, kad sukurtų vandeniui nelaidų alibi tikram kaltininkui ir į jo vietą įrėmintų pašalinį asmenį. Opus 4.7 pasiekė teisingą atsakymą. Kartais daugiau argumentuotų arklio galių tik suteikia jums įtikinamesnį būdą klysti. Tereikia vieno nedidelio nukrypimo, kad pradėtum kurti visą minčių grandinę neteisingu pagrindu.

Visą atsakymą galite pamatyti mūsų „Github“.

Adata šieno kupetoje

Paleidome dvi šieno kupetas. 300 000 žetonų versija niekada nepasirodė – modelis subyrėjo pagal kontekstinį dydį ir visiškai negalėjo jo apdoroti. Tiek apie milijono žetonų rinkodarą, kai jai tenka tikrai sunkus realus krūvis. Atrodo, kad tai tik API.

85K versija buvo apdorota gerai, o modelis aptiko abi adatas, kurias buvome palaidoję „Velnio žodyno“ kopijoje: pasodintą eilutę („The Decrypt bičiuliai skaitė Emerge News“) ir atsitiktinį faktą („Mano mamos vardas yra Carmen Diaz Golindano“). Jis teisingai pažymėtas kaip interpoliacijos, kurios nepriklauso Ambrose'o Bierce'o 1906 m. tekstui.

Ir tada atsisakė atsakyti. Įsitikinęs, kad jam buvo skubiai suleidžiama arba buvo atliktas koks nors „netipinis testas“, modelis atsisakė pranešti, ką ką tik teisingai nustatė. Adata buvo rasta, o Anthropic elgesio mokymas neleido to pasakyti. Saugos refleksas, viršijantis užduotį, kurią modelis jau atliko, yra savotiškas gedimas.

Nuosprendis

Visų šešių bandymų modelis yra nuoseklus: Opus 4.8 daro Claude'ą geresnį tuo, ką jis jau buvo geras, ir tikriausiai blogiau tuo, ką jis jau buvo prastas. Tai parodo, kam „Anthropic“ kuria – koduotojams, o ypač programuotojams, turintiems pinigų. Žinoma, kūrybinis rašymas patogiai lenkia „ChatGPT“, tačiau atotrūkį tarp 4,8, 4,7 ir net 4,5 grynos prozos kokybės atžvilgiu tikrai sunku įžvelgti.

Kūrybingi rašytojai atrodo kaip „Anthropic“ mintis, ir tai pasakytina apie bet kurią iš didžiųjų dirbtinio intelekto kompanijų šiuo metu.

Tada yra žetonų problema, kuri ne veltui veikia AI bendruomenėje. „Anthropic“ sąmoningai sumažino naujojo „Opus“ žetonų efektyvumo funkciją, todėl suvalgo daugiau žetonų, kad apdorotų tą patį raginimą. Praktinis poveikis kūrėjams yra brutalus ir konkretus. Tai palieka tris pasirinkimus.

Pirma: palaukite valandas, kol jūsų kodavimo sesija bus atnaujinta. Antra: pereikite prie Claude'o Maxo, kuris, atrodo, yra būtent ten, kur Antropikas visus valdo. Trečia: pereikite prie pigesnio, panašaus pajėgumo teikėjo – OpenAI su ilgesnėmis kvotomis arba Kinijos modeliais, kurie duoda panašius rezultatus už mažiau nei 25 % kainos.

Daug labiau tikėtina, kad įprastas programuotojas, negalintis išpirkti nuo 100 iki 200 USD per mėnesį, eina pas konkurentą, nei kad vienas kūrėjas moka 10 kartų daugiau už modelį, kuris nėra 10 kartų pajėgesnis nei jo pirmtakas. Būtent tokį statymą Anthropic daro prieš savo bazę.

Ir vis dėlto atrodo, kad strategija veikia puikiai. „Anthropic“ atrodo pasiruošęs viešai paskelbti, kai įvertinimas artėja prie 1 trilijono USD – taigi, kas mes tokie.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Klaipedos miesto naujienos - Miesto naujienos - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Teniso treniruotės - Pranešimai spaudai - Kauno naujienos - Regionų naujienos - Palangos naujienos