„Mistral Roars Back“ su „Frontier AI“ šeima, kuri dera su „DeepSeek“.

Prancūzų dirbtinio intelekto startuolis „Mistral“, dažnai atmetamas kaip Europos varžovas srityje, kurioje dominuoja Amerikos milžinai ir Kinijos lyderiai, ką tik pasivijo: antradienį jis atsisakė ambicingiausio išleidimo, kuris suteikia galimybę atvirojo kodo konkursui gauti pinigų. (Arba šiuo atveju nėra pinigų.)

4 modelių šeima apima kišeninius padėjėjus iki 675 milijardų parametrų naujausios sistemos, kuriai taikoma leistina Apache 2.0 atvirojo kodo licencija. Režimus galima viešai atsisiųsti – kiekvienas, turintis tinkamą aparatinę įrangą, gali juos paleisti vietoje, modifikuoti, sureguliuoti arba kurti programas.

Pavyzdinė įmonė „Mistral Large 3“ naudoja nedidelę „Mixture-of-Experts“ architektūrą, kuri suaktyvina tik 41 milijardą iš 675 milijardų bendrų parametrų kiekviename prieigos rakte. Toks inžinerinis pasirinkimas leidžia įveikti ribines svorio kategorijas, o daryti išvadas, panašias į 40 milijardų parametrų skaičiavimo profilį.

<!(CDATA(<span data-mce-type="bookmark" style="display:inline-block;width:0px;overflow:hidden;line-height:0" class="mce_SELRES_start"></span>))>

„Mistral Large 3“ buvo apmokytas nuo nulio naudojant 3 000 NVIDIA H200 GPU ir debiutavo antroje vietoje tarp atvirojo kodo, neprotingų modelių „LMArena“ lyderių sąraše.

Etaloninė konkurencija su DeepSeek pasakoja sudėtingą istoriją. Remiantis „Mistral“ etalonais, jo geriausias modelis pranoksta „DeepSeek V3.1“ pagal keletą metrikų, tačiau LMArena keliais taškais atsilieka nuo naujesnės versijos V3.2.

Kalbant apie bendrąsias žinias ir ekspertų samprotavimo užduotis, Mistral šeima laikosi savo. „DeepSeek“ pranašumas yra neapdorotas kodavimo greitis ir matematinė logika. Tačiau to reikia tikėtis: į šį leidimą neįtraukti samprotavimų modeliai, todėl šių modelių architektūroje nėra įterptos minčių grandinės.

Mažesni „Ministral“ modeliai yra vieta, kur kūrėjams viskas įdomu. Trys dydžiai – 3B, 8B ir 14B parametrai – kiekvienas pristatomas su baziniais ir instrukcijos variantais. Visi palaiko vizijos įvestį savaime. 3B modelis atkreipė AI tyrėjo Simono Willisono dėmesį, kuris pažymėjo, kad jis gali veikti tik naršyklėje per WebGPU.

Jei norite tai išbandyti, ši „Hugginface“ erdvė leidžia ją įkelti vietoje ir sąveikauti naudojant žiniatinklio kamerą kaip įvestį.

Kompetentingas viziją palaikantis dirbtinis intelektas maždaug 3 GB faile atveria galimybes kūrėjams, kuriems reikia efektyvumo, ar net mėgėjams: dronams, robotams, nešiojamiesiems kompiuteriams, veikiantiems neprisijungus, įterptoms sistemoms transporto priemonėse ir kt.

Ankstyvas išbandymas atskleidžia asmenybės susiskaldymą. Atlikę greitą testą, nustatėme, kad „Mistral 3 Large“ puikiai tinka pokalbiui. Kartais jis turi GPT-5 formatavimo stilių (panašus kalbos stilius ir pirmenybė jaustams), bet natūralesnė.

„Mistral 3 Large“ taip pat yra gana laisva cenzūros atžvilgiu, todėl tai yra geresnis pasirinkimas greitam vaidmenų žaidimui renkantis „ChatGPT“, „Claude“ ar „Gemini“.

Natūralios kalbos užduotims atlikti, kūrybiškam rašymui ir vaidmenų žaidimams naudotojai mano, kad 14B instrukcijos variantas yra gana geras, bet ne itin puikus. „Reddit“ gijos, susijusios su r/LocalLLaMA vėliavėlės pasikartojimo problemomis ir retkarčiais per dideliu pasitikėjimu atsarginėmis frazėmis, paveldėtomis iš mokymo duomenų, tačiau modelio galimybė generuoti ilgos formos turinį yra puikus pliusas, ypač dėl jo dydžio.

Kūrėjai, vykdantys vietines išvadas, praneša, kad 3B ir 8B modeliai kartais sukuria ciklą arba sukuria formulinius rezultatus, ypač atliekant kūrybines užduotis.

Be to, 3B modelis yra toks mažas, kad gali veikti naudojant silpną aparatinę įrangą, pvz., išmaniuosius telefonus, ir gali būti apmokytas / tiksliai suderintas konkretiems tikslams. Vienintelė šiuo metu konkuruojanti parinktis šioje konkrečioje srityje yra mažiausia „Google Gemma 3“ versija.

Įmonių priėmimas jau juda. HSBC pirmadienį paskelbė apie daugiametę partnerystę su „Mistral“, siekdama diegti generatyvųjį AI visose savo operacijose. Bankas naudos savarankiškus modelius savo infrastruktūroje, derindamas vidines technines galimybes su „Mistral“ patirtimi. Finansų įstaigoms, tvarkančioms neskelbtinus klientų duomenis pagal BDAR, ES įsikūrusio dirbtinio intelekto pardavėjo, turinčio atvirus svorius, patrauklumas nėra subtilus.

„Mistral“ ir NVIDIA bendradarbiavo kurdami NVFP4 suglaudintą kontrolinį tašką, leidžiantį „Large 3“ veikti viename aštuonių geriausių kortelių mazge. NVIDIA teigia, kad Ministral 3B pasiekia maždaug 385 žetonus per sekundę RTX 5090, o daugiau nei 50 žetonų per sekundę Jetson Thor robotikos programoms. Tai reiškia, kad modelis yra labai efektyvus ir greitai daro išvadas, todėl greičiau pateikia atsakymus neprarandant kokybės.

Remiantis pranešimu, netrukus pasirodys argumentams optimizuota Large 3 versija. Iki tol DeepSeek R1 ir kiti Kinijos modeliai, tokie kaip GLM ar Qwen Thinking, išlaiko tam tikrą skirtumą aiškių samprotavimo užduočių atžvilgiu. Tačiau įmonėms, norinčioms pasienio galimybių, atvirų svorių, daugiakalbystės Europos kalbomis stiprumo ir įmonei, kuriai nebus taikomi Kinijos ar Amerikos nacionalinio saugumo įstatymai, pasirinkimo galimybės tiesiog išsiplėtė nuo nulio iki vieno.

Apskritai protingas Naujienlaiškis

Savaitinė AI kelionė, pasakojama Geno, generatyvaus AI modelio.

Nuoroda į informacijos šaltinį

Apskritai protingas Naujienlaiškis

Susiję įrašai