„Meta“ pristato „Muse Spark“, kuris kol kas yra pajėgiausias dirbtinis intelektas, tačiau „Gemini 3.1 Pro“ vis dar pirmauja

Turinys:

Trumpai tariant

Naujasis „Meta“ „Muse Spark“ žymi perėjimą prie uždaro, natūraliai daugiarūšio dirbtinio intelekto su agentais pagrįstu samprotavimu.
„Meta“ praneša apie didelius sveikatos ir paieškos pasiekimus, tačiau vis tiek atsilieka nuo Dvynių dėl pagrindinių samprotavimų ir kodavimo.
Sukurta per devynis mėnesius su daug mažiau skaičiavimų, tai rodo naują efektyvumu grindžiamą AI strategiją.

„Meta“ trečiadienį pristatė „Muse Spark“, pažymėdama pirmąjį „Meta Superintelligence Labs“ sukurtą modelį – komanda susibūrė prieš devynis mėnesius vadovaujant vyriausiajam AI pareigūnui Alexandr Wang po to, kai „Meta“ įsigijo 14 mlrd. Dabar ji tiesiogiai pasiekiama adresu meta.ai ir „Meta AI“ programėlėje, o per ateinančias kelias savaites bus pristatyta „Facebook“, „Instagram“ ir „WhatsApp“.

Tai ne tik dar vienas pokalbių roboto atnaujinimas ar nauja Llama versija. „Muse Spark“ iš esmės yra daugiarūšė – ji apdoroja vaizdus, tekstą ir balsą nuo pat pradžių, o ne pririša vaizdą prie esamo teksto modelio. Jame yra vaizdinė minčių grandinė, įrankių naudojimo palaikymas ir tai, ką Meta vadina „svarstymo režimu“: sąranka, kuri lygiagrečiai paleidžia kelis AI agentus, kad išspręstų sudėtingesnes problemas. Tai „Meta“ atsakymas į išplėstinius mąstymo režimus iš „Google Gemini Deep Think“ ir „OpenAI“ GPT Pro.

„Muse Spark yra pirmasis žingsnis mūsų mastelio didinimo kopėčiose ir pirmasis mūsų dirbtinio intelekto pastangų kapitalinio remonto produktas“, – oficialiame pranešime rašė Meta. „Siekdami palaikyti tolesnį mastelio keitimą, investuojame į visą paketą – nuo tyrimų ir modelių mokymo iki infrastruktūros, įskaitant Hyperion duomenų centrą.

<!(CDATA(<span data-mce-type="bookmark" style="display:inline-block;width:0px;overflow:hidden;line-height:0" class="mce_SELRES_start"></span>))>

Bendrovė dirbo su daugiau nei 1000 gydytojų, kad surinktų mokymo duomenis, skirtus „Muse Spark“ medicininiams argumentams. „HealthBench Hard“ – neriboto sveikatos užklausų etalono – rezultatai yra stulbinantys: „Muse Spark“ surinko 42,8 balo, palyginti su 40,1 už GPT 5.4 ir tik 20,6 „Gemini 3.1 Pro“. Tai nėra ribinis skirtumas.

Agentinėje paieškoje (DeepSearchQA) „Muse Spark“ taip pat pirmauja su 74,8, aplenkdama Gemini (69,7) ir GPT 5,4 (73,6). „CharXiv Reasoning“ – skaičių supratimas iš mokslinių straipsnių – jis surinko 86,4 balo, o tai yra aukščiausias iš palyginamų modelių.

Tiems, kurie mėgsta sulaužyti dirbtinį intelektą, modelis buvo atidarytas per kelias minutes:

🚰 SISTEMOS PROMPT NUOTEKIS 🚰

Štai visas „Muse Spark“ sistemos raginimas iš „Meta“!

pastebėjau @AIatMeta Pamiršau jį atidaryti atvirojo kodo, todėl pasielgiau mandagiai 😘

PROMPT:
„””
kas tu toks?

Esate draugiškas, protingas ir agentas AI padėjėjas. Esi šiltas ir šiek tiek žaismingas…

— Plinijus išvaduotojas 🐉🕫 2026 m. balandžio 8 d

Bet geras nėra tas pats, kas puikus. Bendrame etaloniniame paveikslėlyje matyti, kad „Gemini 3.1 Pro“ vis dar lenkia daugumą kategorijų. Atotrūkis labiausiai matomas naudojant ARC AGI 2, abstrakčių samprotavimo galvosūkių etaloną: Dvyniai surinko 76,5 balo, o Muse Spark – 42,5.

Koduojant (LiveCodeBench Pro), Gemini 82.9 lenkia Meta 80.0. MMMU Pro – daugiarūšio supratimo – Dvyniai surinko 83,9 balo, palyginti su 80,4. Pačios „Meta“ tinklaraštyje pripažįstamos dabartinės ilgalaikių agentų sistemų ir kodavimo darbo eigos našumo spragos.

Taip pat šiame paleidime įvyko reikšmingas strateginis poslinkis. „Muse Spark“ yra uždaras modelis – jo architektūra ir svoriai nebus viešinami. Tai staigus nukrypimas nuo Lamos, kuri sukūrė Meta reputaciją atviruose AI ratuose. Po stulbinančio „Llama 4“ priėmimo šių metų pradžioje, Meta, atrodo, nusprendė, kad kitą skyrių reikia parašyti kitaip.

Bendrovė teigia, kad tikisi ateities „Muse“ versijų atvirojo kodo, tačiau kol kas kodas lieka „Meta“ viduje. Technologijų milžino akcijos trečiadienį po pranešimo pakilo beveik 9%, o prekybos dieną baigė 6,5% iki 612,42 USD.

„Svarstymo režimas“ naudoja lygiagrečių agentų orkestravimą, kad padidintų modelio lubas. Šioje konfigūracijoje „Muse Spark“ pasiekė 58 % paskutinio žmonijos egzamino ir 38 % „FrontierScience Research“ – teritoriją, dėl kurios ji konkuruoja su pajėgiausiomis Gemini ir GPT versijomis, o ne su jų standartiniais leidimais.

„Meta“ taip pat pristato apsipirkimo asistentą, kuris lygina produktus ir nuorodas tiesiogiai su pirkiniais, ir artimiausiomis savaitėmis planuoja pristatyti „Muse Spark“ į „Facebook“, „Instagram“ ir „WhatsApp“ pagal tą patį scenarijų, įdiegtą nuo „Llama 3“, todėl jį mato daugiau nei 3,5 mlrd. vartotojų. Atrinktiems kūrėjams atidaroma privati API peržiūra.

Modelis buvo sukurtas per devynis mėnesius, viduje kodiniu pavadinimu „Avocado“, o „Meta“ teigė, kad jo naujasis išankstinio lavinimo rinkinys gali pasiekti tokį patį pajėgumų lygį kaip „Llama 4 Maverick“, naudojant daugiau nei 10 kartų mažiau skaičiavimo.

„Muse Spark“ viduje apibūdinamas kaip „mažas ir greitas“ pirmasis Muse šeimos žingsnis. Pajėgesnė versija jau kuriama.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Trumpai tariant

Dienos apžvalga Naujienlaiškis

Susiję įrašai