Antropijos teiginių geriausias kodavimo modelis pasaulyje “su„ Claude Sonnet 4.5 “

Turinys:

Trumpai

„Anthropic“ išleido „Claude Sonnet 4.5“, pavadindamas jį geriausiu kodavimo modeliu.
Modelis surinko 77,2% SWE-Bench, patikrintas, padidėjo iki 82% su lygiagretaus skaičiumi.
Antropicas teigė, kad suderinimo ir saugumo patobulinimai, tačiau „Jailbreakers“ jį nulaužė per kelias minutes.

„Anthropic“ pirmadienį išleido „Claude Sonnet 4.5“, pavadindama jį „geriausiu kodavimo modeliu pasaulyje“ ir kartu su modeliu išleido naujų kūrėjų įrankių rinkinį. Bendrovė teigė, kad modelis daugiau nei 30 valandų gali sutelkti dėmesį į sudėtingas, daugiapakopis kodavimo užduotis ir parodyti samprotavimo ir matematinių galimybių pelną.

Pristatome „Claude Sonnet 4.5“ – geriausią kodavimo modelį pasaulyje.

Tai stipriausias sudėtingų agentų statybos modelis. Tai geriausias modelis naudojant kompiuterius. Ir tai rodo esminį samprotavimo ir matematikos testų padidėjimą. pic.twitter.com/7lwv9wpnav

– Claude (@claudeai) 2025 m. Rugsėjo 29 d

Remiantis „Anthropic“ pranešimu, modelis surinko 77,2 proc. „SWE-Bench“ patvirtinto etalono, kuris matuoja realaus pasaulio programinės įrangos kodavimo gebėjimus. Šis balas padidėja iki 82%, kai naudojant lygiagrečią bandymo laiko skaičiavimą. Tai suteikia naują modelį prieš geriausius „Openai“ ir „Google“ pasiūlymus ir net „Anthropic“ „Claude 4.1 Opus“ (pagal bendrovės įvardijimo schemą Haiku yra mažas modelis, „Sonnet“ yra vidutinio dydžio, o „Opus“ yra pats sunkiausias ir galingiausias modelis šeimoje).

Vaizdas: antropic

„Claude Sonnet 4.5“ taip pat vadovauja „Osworld“-etaloniniam AI modeliams, atliekantiems realaus pasaulio kompiuterio užduotis, įvertindamas 61,4%. Prieš keturis mėnesius „Claude Sonnet 4“ pirmavo 42,2%. Šis modelis rodo pagerintas samprotavimo ir matematikos etalonų galimybes bei konkrečių verslo sričių, tokių kaip finansai, įstatymai ir medicina, ekspertai.

Mes išbandėme modelį, o pirmasis greitas testas nustatė, kad jis gali sugeneruoti įprastą „AI vs žurnalistų“ žaidimą, naudojant „Zero-Shot“ raginimą be iteracijų, pataisų ar pakartojimų. Modelis sukūrė funkcinį kodą greičiau nei „Claude 4.1 Opus“, išlaikant aukščiausios kokybės išvestį. Jos sukurta programa parodė vaizdinį laką, panašų į „Openai“ išvestis – tai pakeitimas iš ankstesnių „Claude“ versijų, kurios paprastai sukūrė mažiau rafinuotą sąsajas.

„Anthropic“ su modeliu išleido keletą naujų funkcijų. „Claude Code“ dabar apima patikrinimo taškus, kurie išsaugo pažangą ir leidžia vartotojams grįžti į ankstesnes valstijas. Bendrovė atnaujino terminalo sąsają ir išsiuntė „Native VS Code“ plėtinį. „Claude“ API įgijo konteksto redagavimo funkciją ir atminties įrankį, leidžiantį agentams paleisti ilgiau ir valdyti didesnį sudėtingumą. „Claude“ programos dabar apima kodo vykdymą ir skaičiuoklių, skaidrių ir dokumentų kūrimą ir failų kūrimą tiesiogiai pokalbiuose.

Kainos išlieka nepakitę nuo „Claude Sonnet 4“ – 3 USD už milijoną įvesties žetonų ir 15 USD už milijoną išvesties žetonų. Visiems „Claude Code“ atnaujinimams yra prieinami visiems vartotojams, o „Claude“ kūrėjų platformos atnaujinimai, įskaitant agentą SDK, yra prieinami visiems kūrėjams.

„Anthropic“ dar vadino „Claude Sonnet 4.5“ „mūsų labiausiai suderintu pasienio modeliu“, sakydamas, kad tai padarė reikšmingą patobulinimą mažinant elgesį, pavyzdžiui, sycofanciją, apgaulę, galios ieškojimą ir skatinantį apgaulingą mąstymą. Bendrovė taip pat teigė, kad ji padarė pažangą gindama nuo greitų injekcijų atakų, kurias ji nustatė kaip vieną rimčiausių rizikų agentų ir kompiuterių naudojimo galimybių vartotojams.

Žinoma, prireikė Plinijaus – garsiausio pasaulyje AI raginimo inžinieriaus – kelias minutes, kad jis galėtų jį sugadinti ir generuoti narkotikų receptus, kaip tai buvo normaliausias dalykas pasaulyje.

Išleidimas įvyksta, kai AI bendrovės sustiprėja konkurencija dėl kodavimo galimybių. Praėjusį mėnesį „Openai“ išleido „GPT-5“, o „Google“ modeliai konkuruoja dėl įvairių etalonų. Tai gali būti šokiruotojas kai kuriose prognozavimo rinkose, kurios prieš kelias valandas buvo beveik visiškai įsitikinę, kad „Gemini“ bus geriausias mėnesio modelis.

Tai gali būti lenktynės prieš laiką. Šiuo metu modelis neatsiranda reitinguose, tačiau „LM Arena“ paskelbė, kad ji jau yra prieinama reitingui. Atsižvelgiant į sąveikos skaičių, rytojaus rezultatas gali būti gana stebinantis, atsižvelgiant į Claude 4.1 opus antroje vietoje, o Claude 4.5 sonetas yra daug geresnis.

„Anthropic“ taip pat išleidžia laikiną tyrimų peržiūrą, pavadintą „Įsivaizduokite su Claude“, „Max“ abonentams, kuriuos galima naudoti penkias dienas. Eksperimente Claude generuoja programinę įrangą skrendant be iš anksto nustatyto funkcionalumo ar iš anksto iš anksto įrašyto kodo, atsakydamas ir prisitaikydamas prie užklausų, kai vartotojai sąveikauja.

„Tai, ką matai, yra Claude'as sukuria realiuoju laiku“, – teigė bendrovė. Antropikas apibūdino tai kaip parodymą, kas įmanoma derinant modelį su tinkama infrastruktūra.

Paprastai protingas Informacinis biuletenis

Savaitės AI kelionė, kurią pasakojo generacinis AI modelis.

Nuoroda į informacijos šaltinį

Trumpai

Paprastai protingas Informacinis biuletenis

Susiję įrašai