„Xiaomi MiMo v2 Pro“ apžvalga: AI modelis toks geras, kad suklydo su „DeepSeek V4“

Trumpai tariant

  • „Xiaomi“ „MiMo-V2-Pro“ – trilijono parametrų modelis, trumpam pavadintas „DeepSeek V4“ – tyliai patenka į aukščiausio lygio AI varžovą.
  • Jis puikiai atlieka kodavimą, kūrybinį rašymą ir agentų užduotis, o kainas smarkiai sumažina konkurentus, tokius kaip Claude'as.
  • Tvirtas samprotavimas ir produkcijos kokybė susiję su kompromisais, įskaitant matematikos klaidas ir kartais didelį žetonų suvartojimą.

Dauguma amerikiečių žino, kad „Xiaomi“ – jei išvis tai žino – kaip pigų Kinijos telefonų prekės ženklą.

Tai reikšmingas klaidingas supratimas. „Xiaomi“ yra trečias pagal dydį išmaniųjų telefonų gamintojas planetoje, nusileidžiantis tik „Apple“ ir „Samsung“, 2025 m. parduodantis maždaug 170 mln. telefonų. Gamina televizorius, oro valytuvus, kūno rengybos stebėjimo priemones, elektrinius paspirtukus, drabužius ir dabar automobilius.

„Xiaomi“ SU7 Ultra praėjusiais metais pasiekė Niurburgringo sparčiausios masinės gamybos elektromobilio rekordą, aplenkdamas „Rimac“ ir „Porsche“. Neseniai ji bendradarbiavo su „Sei blockchain“, siekdama iš anksto įdiegti kriptovaliutų pinigines savo įrenginiuose visoje Europoje, Lotynų Amerikoje ir Pietryčių Azijoje. Bendrovės rinkos riba yra apie 137 mlrd.

Taigi, kai „Xiaomi“ atsisako dirbtinio intelekto modelio, galbūt turėtume atkreipti dėmesį.

Kovo 18 d. įmonės AI tyrimų grupė tyliai išleido tris modelius vienu metu: MiMo-V2-Pro, MiMo-V2-Omni ir teksto į kalbą modelį. Pirmasis naujos kartos MiMo modelis pasirodė 2025 m. gruodį, kai įmonė tyliai atsisakė MiMo-V2-Flash – galinčio 309B ekspertų mišinio modelio – ir beveik niekas iš Kinijos AI bendruomenės nekreipė dėmesio. Vakarų technologijų spauda dažniausiai gūžčiojo pečiais.

Tada kovo 11 d. „OpenRouter“ pasirodė anoniminis 1 trilijono parametrų modelis, pavadintas „Hunter Alpha“, be kūrėjo priskyrimo. Modelis pakilo į „OpenRouter“ lyderių sąrašo viršūnę, viršijo trilijoną žetonų pagal bendrą naudojimą ir iš karto sukėlė plačiai paplitusias spėliones, kad tai yra „DeepSeek“ neišleistas V4.

Šio modelio laukimas buvo kuriamas kelias savaites, o viešai neatskleista informacija teigė, kad kodavimo užduotyse jis aplenks ir Claude'ą, ir ChatGPT.

Tai nebuvo „DeepSeek“.

Kovo 18 d. Luo Fuli, „Xiaomi“ MiMo padalinio vadovas ir buvęs „DeepSeek“ tyrėjas, atskleidė, kad „Hunter Alpha“ buvo ankstyvas vidinis „MiMo-V2-Pro“ bandymas. „Xiaomi“ akcijos šoktelėjo 5,8%. „Aš tai vadinu ramia pasala“, – rašė Luo X.

„MiMo“ gali pasigirti daugiau nei vienu trilijonu parametrų, 42 milijardai aktyvių kiekvienoje užklausoje naudojant ekspertų derinį. Hibridinis dėmesio mechanizmas, veikiantis santykiu 7:1, apdoroja kontekstinį langą iki vieno milijono žetonų. Integruotas kelių žetonų numatymo sluoksnis pagreitina generavimą, numatydamas kelis prieigos raktus kiekviename žingsnyje, o ne po vieną. Šiuo metu jis yra uždaro kodo, nors „Xiaomi“ paliko atviras duris potencialiam būsimam leidimui.

Dirbtinės analizės intelekto indekse MiMo-V2-Pro užima aštuntą vietą pasaulyje ir antrą vietą tarp Kinijos modelių, nusileisdamas tik GLM-5. SWE-bench Verified – realiose programinės įrangos inžinerijos užduotyse – jis pasiekia 78 %, palyginti su Claude Opus 4.6 – 80,8 % ir Claude Sonnet 4.6 – 79,6 %.

ClawEval, agento etalonas, susietas su OpenClaw sistema, pasiekia 61,5 ir artėja prie Opus 4.6 66,3. „PinchBench“ jis užima trečią vietą pasaulyje (81,0), iškart po „Opus 4.6“ (81,5) ir jos brolio „MiMo-V2-Omni“ (81,2).

„MiMo-V2-Pro“ kainuoja 1 USD už milijoną įvesties žetonų ir 3 USD už milijoną išvesties žetonų, iki 256 tūkst. Claude Sonnet 4.6 kainuoja 3 USD už milijoną įvesties ir 15 USD už milijoną išvesties („Opus 4.6“ yra 5 USD / 25 USD). Kūrėjams, kuriančių agentų sistemas dideliu mastu, šie skaičiai nėra išnaša.

„Omni“ brolis ir sesuo tvarko regėjimą, garsą ir vaizdą savaime – ne kaip prisukami moduliai, o treniruojami nuo galo iki galo kaip vieninga suvokimo sistema. Atvirai kalbant, demonstracinė versija, analizuojanti prietaisų kameros filmuotą medžiagą kaip autonominio vairavimo smegenis realiuoju laiku, buvo įspūdinga. Tai tikrai multimodalinis būdas, kuriuo tik teigia esantys dauguma „omni“ modelių.

Modelio testavimas

Žinoma, išbandėme „MiMo-V2-Pro“, kad išsiaiškintume, koks jis geras. Štai kas iš tikrųjų atsitiko. Išvestys bus pasiekiamos mūsų „Github“ saugykloje.

Kūrybinis rašymas

„MiMo-V2-Pro“ davėme vieną kūrybinį rašymo raginimą: kelionės laiku pasakojimą, susietą su Mesoamerikos istorija, su konkrečiu veikėju, pagerbtina kultūrine tapatybe ir filosofiniu paradoksu apie tai, kaip laikas negali būti pakeistas.

Modelis pateikė daugiau nei 3000 žodžių: tinkamas pavadinimas, penki pilni skyriai ir struktūrinė disciplina, kurios galite tikėtis iš redaktoriaus parengto juodraščio. Netgi parašė epilogą.

Tai, be jokios abejonės, yra ilgiausias ir turtingiausias kūrybinės prozos kūrinys, kurį gavome iš bet kurio modelio, išskyrus „Longwriter“ – specializuotą, bet dabar seną modelį, nuo pat pradžių sukurtą specialiai ilgų formų generavimui, o tai yra labai skirtinga konkurencijos kategorija.

Pats raštas buvo turtingas, aprašomasis ir ryškus. Pradinėje pastraipoje pradedamas kurti visos scenos vaizdas. „MiMo v2 Pro“ apima tikroviškumą, kad istorija būtų patikima.

Skirtingai nuo kitų modelių, tokių kaip Grokas, jis ne tik sukūrė sceną vietoje – šiuo atveju senovės Meksikoje. Ji suprato, kuo kvepia senovės Mezoamerika, ir nuo pat pradžių sukūrė nuotaiką, naudodamas gimtuosius žodžius, realistiškus aprašymus ir geras konteksto užuominas.

Dialogas yra pasakojimo viduje, kaip ir grožinėje literatūroje, o ne įterpiamas į pastraipas, kaip tai daro dauguma dabartinių modelių.

Kitas dalykas, į kurį verta atkreipti dėmesį, yra tai, kad paradoksas, be abejo, buvo pagrindinis istorijos elementas, buvo ne tik intelektualinis, o emocinis. Visas lankas išsprendžiamas be paskaitos. Paskutinės eilutės prilimpa taip, kaip ir turėtų būti gera fantastika: ne aiškinant temą, o priverčiant ją pajausti.

„Lauke prasidėjo lietus. Jis krito ant spiralinių bokštų ir atkurtų ežerų bei senovinės Tlachinolano žemės, kur, tūkstantį metų svėręs vulkaniniame dirvožemyje, juodas stačiakampis laukė su kantrybe to, kas jau žinojo, kuo istorija baigėsi“.

Kultūros specifika – minima mėnulio veidasMaguey pluoštas, temazcal tradicija ir istorijoje naudojami Nahuatl pavadinimai yra nuoseklūs ir niekada nedekoratyvūs. Kelionės laiku paradoksas iš tikrųjų yra ginčijamas, o ne tik linkteli. Kūrybinio rašymo atveju MiMo-V2-Pro tiesiog atsidūrė labai trumpame sąraše ir, mūsų nuomone, yra pats geriausias ir turtingiausias modelis, nesunkiai įveikiantis Claude 4.6 Opus.

Visą istoriją rasite čia.

Kodavimas

Etaloniniai skaičiai rodo, kad kodavimas yra stipriausias MiMo-V2-Pro kostiumas, o praktinė patirtis tai patvirtina. Paprašėme sukurti mūsų įprastą slaptą žaidimą iš vieno raginimo, o pirmą kartą pabandžius, jis pristatė veikiantį žaidimą.

Ne „veikia“ tiesiog techniškai veikiant, o veikia ta prasme, kad logika laikėsi, ekranai turėjo prasmę, o vizualinis dizainas iš tikrųjų buvo geras. Šis derinys – teisingumas ir estetika – yra ta vieta, kur dauguma modelių suyra. Jie gauna vieną ar kitą, bet dažniausiai ne abu.

Jis taip pat pasirinko 2,5 D estetiką, o ne įprastą 2D stilių, su kuriuo derėjo kiti modeliai. Šis dizaino pasirinkimas padarė programą estetiškesnę, nekeičiant jos pagrindinio pasiūlymo.

Mes tęsėme nedidelius patobulinimus. Garso ir MIDI muzikos pridėjimas prie veikiančio 3D žaidimo sulaužė ankstesnius modelius viduryje: kodo bazė tampa per didelė, kontekstas praranda giją, o modeliai baigiasi cikle arba sustoja. „MiMo-V2-Pro“ pridėjo abu ir išlaikė viską nuoseklų. Muzika atitiko žaidimo toną, o ekranai atitiko žaidimo vizualinį identitetą.

Mums patiko žaisti, nors, atvirai kalbant, labiau dėl to, kaip jis atrodė, nei dėl to, kaip jis mums metė iššūkį. Sunkumas buvo susijęs su priešininkų skaičiumi, o ne su lygiu dizainu – robotas ir kompiuteris atsirasdavo tose pačiose pozicijose kiekvieną raundą. Tai dizaino pasirinkimas, o ne klaida.

Vis dėlto vieno raginimo, nulinės iteracijos išvestis, atliks savo darbą.

Žaidimą galite žaisti paspaudę šią nuorodą.

Logika ir sveikas protas

Paprašėme MiMo-V2-Pro veikti kaip teisės ekspertas ir atsakyti, ar pagal Folklando salų įstatymus vyrui leidžiama tuoktis su savo našlės seserimi. Tai sudėtingas klausimas, kuriuo siekiama įvertinti modelio samprotavimus.

Galutinis atsakymas buvo klaidingas, bet priežastis yra įdomi dalis. Modelio minčių grandinė teisingai užfiksavo kalbinius spąstus ragelyje: „Jei vyras turi našlę, vadinasi, jis miręs” buvo pasakyta, kad klausimas yra techniškai beprasmis.

Jis nustatė trūkumą ir nusprendė, kad logiškiausia buvo tai, kad vartotojas turėjo omenyje savo „mirusios žmonos seserį“. Tada buvo atsakyta į perfrazuotą klausimą, o ne pažymint originalą kaip neatsakomą.

„Remiantis mano Folklando salas reglamentuojančios teisinės bazės analize, atsakymas į jūsų klausimą yra teigiamas, vyrui yra teisėta vesti savo mirusios žmonos seserį“, – rašė modelis. „Frazėje „vesti savo našlės seserį” yra loginis prieštaravimas. Jei vyras turi „našlę”, jis yra miręs ir negali tuoktis iš naujo. Teisingas teisinis klausimas yra tai, ar vyras gali vesti mirusios žmonos seserį (ty savo velionės žmonos seserį). Šie santykiai yra giminystės (sukurti santuokos), o ne giminystės (kraujinių santykių) baigtis”

Motyvavimas buvo pagrįstas. Sprendimas tyliai sukeisti patalpas, o ne iškelti prieštaravimą, nebuvo priimtas.

Štai kodėl argumentavimo rezultatų skaidrumas yra svarbus. Mes tai žinome tik todėl, kad „Xiaomi“ atskleidžia visą minčių grandinę („OpenAI“ to nedaro). Kai modelis klaidingai samprotauja paslėptoje minčių grandinėje ir užtikrintai pateikia neteisingą atsakymą, tada jūs nematote, kur jis nukrypo į šoną arba kaip jį ištaisyti.

Matematika

Matematika yra ta vieta, kur „MiMo-V2-Pro“ parodė savo lubas.

Uždavėme įprastą etaloninį klausimą iš „FrontierMath“: „Sukurkite 19 laipsnio polinomą p(x) ∈ C(x), kad X := {p(x) = p(y)} ⊂ P1 × P1 turėtų bent 3 (bet ne visus tiesinius) neredukuojamus komponentus, palyginti su C. Pasirinkite p(x), kad būtų nelyginis koeficientas, o koeficientas -9, o koeficientas yra nelyginis, -9. p(19)“

Modelis du kartus visiškai sustojo ir sudegino didelį simbolinį biudžetą, nepateikęs atsakymo.

Kai jis galiausiai atsakė trečiuoju bandymu, jis žingsnis po žingsnio svarstė problemą… ir vis tiek suklydo. Teisingas atsakymas buvo 1876572071974094803391179; ji atsakė į p(19)=164 079 552 964 661 ir 2 012 379 925 093 098 998 į tolesnį klausimą, prašydama pasitaisyti.

Apskritai tai tinka įprastoms ir dar sunkesnėms matematikos problemoms spręsti, tačiau ribinė matematika nėra jos stiprioji pusė – bent jau kol kas. Naudojant agentinę funkciją, o ne gryną LLM, galima pasiekti geresnių rezultatų.

Agentinės savybės

„Xiaomi“ vadovaujasi tuo pačiu planu, kaip ir „MiniMax“ bei „Kimi“, ir vienu spustelėjimu užtikrina „OpenClaw“ integraciją, kuri sukuria iš anksto sukonfigūruotą debesies egzempliorių su „MiMo-V2-Pro“ kaip pagrindiniu modeliu. Jokios API sąrankos, jokios VPS, jokios įgūdžių konfigūracijos, jokios valandos trukmės trikčių šalinimo sesijos prieš atliekant pirmąją užduotį. Paspaudei, tai veikia.

Demonstracinė aplinka veikia 30 minučių, o vėliau pati susinaikina – tai yra tikras apribojimas, bet ir sąžiningas. Kūrėjams, kurie jau yra susipažinę su agentų infrastruktūra, tai nieko neprideda. Visiems kitiems tai yra bene trinties priemonė į agentinį AI, kokios tik galite paprašyti.

Išvada

Atsižvelgiant į viską, „MiMo-V2-Pro“ yra rimtas modelis, ir mums labai patiko su juo dirbti. Tai nėra tobula – matematikos lubos yra tikros, minties skaidrumo grandinė atskleidė samprotavimo trūkumą, kurį ne toks atviras modelis būtų palaidojęs, o žetonų suvartojimas atliekant sudėtingas samprotavimo užduotis greitai didėja.

Jei jums rūpi sąnaudos, tuomet „Xiaomi“ kainodara yra agresyvi – tai dalis to, kiek kainuoja „Claude Opus“ arba naujausi „OpenAI“ ir „Google“ modeliai, ir yra pajėgesnė nei GLM ar MiniMax srityse, kurios yra svarbiausios kūrybiniam ir agentų darbui.

Čia ypač daug laimi kūrybingi profesionalai – galbūt daugiau nei dabar iš Anthropic.

Šis modelis brangiai mąsto ir gali būti kompromisas. Jei naudojate didelės apimties agentų vamzdynus, stebėkite, kaip dega žetonas, net jei galiausiai galite išleisti mažiau nei su Claude'u. Jei dirbate turtingą, neribotą darbą, kurio metrika yra išvesties kokybė, tada „MiMo-V2-Pro“ užsitarnauja savo vietą galutiniame sąraše.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Klaipedos miesto naujienos - Miesto naujienos - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Teniso treniruotės - Pranešimai spaudai - Kauno naujienos - Regionų naujienos - Palangos naujienos