„Google DiffusionGemma AI“ pasiekia 1000 žetonų per sekundę

Turinys:

Trumpai tariant

„Google“ išleido „DiffusionGemma“ – nemokamą atvirojo svorio modelį, kuris vienu metu generuoja ištisus 256 žetonų blokus per teksto sklaidą – pasiekia daugiau nei 1 000 žetonų per sekundę NVIDIA H100, keturis kartus greičiau nei standartiniai autoregresyvūs modeliai.
Pasirinktinis braižybos modulis „DiffusionGemma“, kurio reikia vietinei išvadai, dar neegzistuoja jokiame viešajame vykdymo laikotarpyje – nei mlx-lm, nei „LM Studio“, todėl šiandien jis veiksmingai nepaleidžiamas daugelyje vartotojų sąrankų.
NVIDIA NIM modelyje buvo iš anksto sukonfigūruotas 8 192 konteksto atpažinimo raktai – žemiau 64 000 žetonų ribos, kurios reikalauja tokios agentinės sistemos kaip „Hermes Agent“ – tai reiškia, kad autonominės darbo eigos neveiks be rankinio perkonfigūravimo.

Šiandien „Google“ atsisakė „DiffusionGemma“ – atviro modelio AI, kuris generuoja tekstą taip, kaip vaizdų generatoriai kuria paveikslėlius: pradėkite nuo triukšmo, patikslinkite, kol pasirodys prasminga. NVIDIA H100 jis pasiekia 1000 žetonų per sekundę. (Žetonai yra pagrindinis informacijos, kurią tvarko AI modelis, vienetas.) Tai reiškia, kad jis keturis kartus greitesnis nei įprastas Gemma. Tai taip pat nemokama, Apache 2.0, su svarmenimis ant Hugging Face.

Laimikis, kaip visada, yra smulkiu šriftu. Remiantis „Google“ pranešimu, modelis pasiekia „700 ir daugiau žetonų per sekundę NVIDIA GeForce RTX 5090“. Jis taip pat atsilieka nuo standartinio Gemma 4 išvesties kokybės.

„Google“ taip sako patys. Tai greičio modelis, o ne kokybės atnaujinimas.

Ką tai iš tikrųjų daro

Kiekviena jūsų naudojama LLM yra rašomosios mašinėlės. Po vieną žetoną, kiekvienas žodis priklauso nuo paskutinio. Taip veikia autoregresyvi architektūra.

DiffusionGemma to nedaro. Užuot generuojant žetonus nuosekliai, jis pradedamas lygiagrečiai patobulintais iškraipyto teksto gabalais. Remiantis „Google“ kūrėjo vadovu, jis „prasideda nuo atsitiktinių vietos žymėjimo ženklų drobės“ ir pakartotinai užrakina patikimus žetonus, kol visas blokas užsifiksuoja. Du šimtai penkiasdešimt šeši žetonai už vieną perdavimą į priekį. GPU lieka užimtas.

Šalutinis poveikis yra dvikryptis dėmesys – kiekvienas žetonas gali matyti kiekvieną kitą žetoną generuodamas, o tai neįmanoma autoregresiniuose modeliuose (jie nemato ateities, kas bus užkoduota). Dėl to jis neįprastai geras atliekant užduotis, kurių pradžią riboja atsakymo pabaiga: kodo pildymas, struktūrinė išvestis, sudėtingos suvaržymo problemos ir t. t. „Google“ patikslino versiją, kad išspręstų „Sudoku“ kaip demonstracinę versiją. Bazinis modelis gavo maždaug 0% galvosūkių.

Patobulinta versija pasiekė 80 proc.

Teksto sklaida buvo tyrimų projektas daugelį metų. MDLM, SEDD, LLaDA, Dream – akademiniai modeliai, kurie įrodė šį metodą, veikė nedideliu mastu ir dažniausiai liko kaip koncepcijų įrodymas. „Inception Labs“ 2026 m. vasario mėn. pristatė „Mercury 2“ kaip pirmąjį komercinį difuzijos samprotavimo modelį, teigiantį, kad greitis yra penkis kartus didesnis nei pagal greitį optimizuoti konkurentai.

Tačiau nė vienas iš jų nebuvo atviras ir nė vienas iš jų nebuvo palaikomas „vLLM“, „Hugging Face Transformers“ ir „Unsloth“. DiffusionGemma yra pirmasis didelis atviras pirmojo lygio laboratorijos leidimas.

Taip pat verta paminėti istorinę ironiją. Vaizdo generatoriai buvo pradėti kaip difuzijos modeliai (iš čia ir pavadintas „Stable Diffusion“), o dabar, siekdami geresnės kokybės, pereina prie autoregresyvios architektūros. Kalbos modeliai prasidėjo kaip autoregresyvūs ir dabar eksperimentuoja su greičio difuzija.

Kodėl skaudu bėgti… kol kas

Norint veiksmingai paleisti DiffusionGemma, reikalingas braižytojas – lengvas modulis, kuris lygiagrečiai siūlo žetonų blokus, kuriuos pagrindinis modelis vėliau patikrina vienu važiavimu į priekį. Tai vadinama spekuliaciniu dekodavimu. DFlash yra sistema, išleista 2026 m. pradžioje, kuriai naudojamas mažas sklaidos modelis kaip juodraštis, leidžiantis daugiau nei 6 kartus pagreitinti kai kurias užduotis. Tai variklis, dėl kurio šios klasės modelis yra praktiškas.

Problema: „DiffusionGemma“ reikia specialaus braižytojo, kad jis veiktų vietoje per MLX – „Apple“ mašininio mokymosi sistemą, skirtą „Apple Silicon“. To modulio nėra jokioje viešoje mlx-lm versijoje, jokioje atviroje ištraukimo užklausoje arba LM Studio susietoje vykdymo aplinkoje.

Bandėme paleisti DiffusionGemma su Hermes per NVIDIA NIM. Modelis buvo įkeltas, bet tada: „agento inicijavimas nepavyko: Modelis google/diffusiongemma-26b-a4b-jo kontekstinis langas yra 8 192 prieigos raktai, o tai yra mažiau nei 64 000, kurių reikalauja Hermes Agent.”

Tiksliau: tikrasis DiffusionGemma konteksto langas yra 256 tūkst. žetonų. 8 192 skaičius rodo, kad „Nvidia“ viską sujaukė pagal numatytuosius nustatymus, o ne modelio architektūrinę ribą.

Praktiškai norint tinkamai sukonfigūruoti jį agento naudojimui, reikia atlikti rankinį darbą, kurio dauguma kasdienių vartotojų dar nesuvokė, o be jo „Hermes Agent“ tiesiog nepavyks. Lygiagretus greitis nieko nereiškia, jei agentas negali paleisti.

Tikimės, kad artimiausiomis dienomis bendruomenė sukurs geresnių išteklių šiems modeliams valdyti.

Kam tai iš tikrųjų

Kūrėjai, turintys NVIDIA RTX 4090 arba 5090 aparatinę įrangą, kuriantys realiojo laiko įrankius – tiesioginius redaktorius, automatinį užbaigimą, kodo pildymą, struktūrinį generavimą. Toks ir yra tikslas. Kaip gegužę apėmė Decrypt, „Google“ nuolat stengėsi padaryti vietines išvadas greičiau be naujos aparatinės įrangos.

Mokslininkams dvikryptis generavimas atveria teritoriją, kurios autoregresiniai modeliai tiesiog negali pasiekti – baltymų sekos, matematiniai grafikai ir viskas, kur padėtis N priklauso nuo padėties N+50. Tai nėra smulkmena.

Balandžio mėnesį „Google“ išleido „Gemma 4“ pagal „Apache 2.0“, o „DiffusionGemma“ tęsia šią strategiją. Nuo šiandien jau atidarytas llama.cpp PR juodraštis. Kai įrankių grandinė pasiveja, tai pasiekia daug platesnę auditoriją.

Įrenginyje su galinčiu atskiru GPU 1000 žetonų per sekundę yra realus.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Trumpai tariant

Ką tai iš tikrųjų daro

Kodėl skaudu bėgti… kol kas

Kam tai iš tikrųjų

Dienos apžvalga Naujienlaiškis

Susiję įrašai