„Google“ dvigubai sumažėja AI: VEO 3, Imagen 4 ir Dvynių difuzijos perkėlimas į kūrybines ribas

„Google I/O 2025“ niekada nebuvo apie subtilumą. Šiais metais įmonė atsisakė padidinimo, pristatydama generatyvinių AI atnaujinimų kaskadą, kuria siekiama perdaryti žemėlapį paieškai, vaizdo įrašams ir skaitmeniniam kūrybiškumui.

„Linchpin: Gemini“, „Google“ naujos kartos modelio šeima, dabar maitina viską, pradedant paieškos rezultatais ir baigiant vaizdo sinteze ir aukštos skiriamosios gebos vaizdo kūrimu-sukuriant naują teritoriją lenktynėse, vis labiau apibūdinančiose pagal tai, kaip greitai ir kaip natūraliai gali generuoti AI.

„ShowStopper“ yra „Veo 3“, pirmasis „Google“ vaizdo įrašų generatorius, sukuriantis ne tik vaizdus, bet ir išsamius garso takelius – ambiientą triukšmą, efektus, net dialogą – sinchronizuotą tiesiogiai su filmuota medžiaga. Įeina teksto ir vaizdo raginimai, ir pasirodo visiškai sukurtas 4K vaizdo įrašas.

Tai žymi pirmąjį didelio masto vaizdo modelį, galintį generuoti garso ir vaizdus tuo pačiu metu-tendencija, kuri prasidėjo „Showrunner Alpha“, neišleisto modelio, tačiau „VeO3“ siūlo kur kas daugiau universalumo, sukuriant įvairius stilius, išskyrus paprastus 2D animacinius filmus.

„Mes įvedame naują kūrimo erą su kombinuotu garso ir vaizdo įrašų generavimu“, – paleidimo metu sakė „Google Labs“ viceprezidentas Joshas Woodwardas. Tai yra tiesioginis iššūkis dabartiniams vaizdo įrašų generavimo lyderiams-„Kling“, „Hunyuan“, „Luma“, „Wan“ ir „Openai's Sora“-„Veo“ apibūdina kaip „viskas viename“ sprendimą, o ne reikalauti kelių įrankių.

Kartu su „VeO3“, „Imagen 4“ – naujausia „Google“ savo vaizdo generatoriaus modelio iteracija – su patobulintu fotorealizmu, 2K skiriamąja geba ir galbūt, svarbiausia, teksto pateikimu, kuris iš tikrųjų veikia ženklų, produktų ir skaitmeninių modelių.

Visiems, kurie kentėjo dėl ankstesnių AI vaizdo modelių sukurto niūrumo teksto, „Imagen 4“ yra reikšmingas patobulinimas.

Šios priemonės neegzistuoja atskirai. „Flow AI“, nauja prenumeratos funkcija profesionaliems vartotojams, sujungia „VEO“, „Imagen“ ir „Dvynių“ kalbos galimybes į vieningą filmų kūrimo ir scenos redagavimo aplinką. Tačiau ši integracija kainuoja – 125 USD per mėnesį, kad pasiektumėte visą įrankių rinkinį kaip reklaminio laikotarpio dalį, kol pradės mokėti visa 250 USD kaina.

Vaizdas: „Google“

Turinys:

Dvyniai: paieškos ir „teksto difuzijos“ maitinimas ir „teksto difuzija“

Generacinė AI nėra skirta tik turinio kūrėjams. „Dvyni 2.5“ dabar sudaro bendrovės pertvarkyto paieškos variklio pagrindą, kurį „Google“ nori iš „Link“ kaupiklio vystytis į dinaminę, pokalbio sąsają, kuri tvarko sudėtingas užklausas ir pateikia sintezuotus, daugialypius atsakymus.

AI apžvalgos – kai „Google Gemini“ bando pateikti išsamius atsakymus į užklausas, nereikalaujant vartotojų spustelėti į kitas svetaines – dabar sėdi paieškos puslapių viršuje, o „Google“ praneša daugiau nei 1,5 milijardo mėnesio vartotojų.

Kitas įdomus vystymasis yra „Dvynių difuzija“, pastatyta su technologijomis, kurias prieš kelis mėnesius pradėtos „Inception Labs“. Iki šiol AI bendruomenė paprastai sutiko, kad autoregresyvi technologija geriausiai veikė teksto generavimui, o difuzijos technologija – vaizdai.

Autoregresyvūs modeliai sukuria kiekvieną naują ženklą, perskaičius visas ankstesnes kartas, kad nustatytų geriausią kitą žetoną – „Ideal“, kad būtų galima kurti nuoseklias teksto atsakymus, nuolat peržiūrint raginimą ir išankstinį išėjimą.

Difuzijos technologija veikia skirtingai, pradedant nuo visų kontekstų užpildymo atsitiktine informacija ir rafinavimo (difuzija) Išėjimo kiekviename žingsnyje, kad galutinis produktas atitiktų raginimą – puikiai tinka vaizdams su fiksuotomis drobėmis ir estetika.

„Openai“ pirmiausia sėkmingai pritaikė autoregresyvią generavimą vaizdų modeliams, o dabar „Google“ tapo pirmąja didele įmone, pritaikančia difuzijos generavimą tekstui. Tai reiškia, kad modelis prasideda nesąmonėmis ir tobulina visą išvestį su kiekviena iteracija, sukuriant tūkstančius žetonų per sekundę, išlaikant tikslumą – atsižvelgiant į kontekstą, „Groq“ (ne Xai groką), kuris yra vienas iš greičiausių išvadų teikėjų pasaulyje, nesukelia beveik 275 žetonų per sekundę, o tradiciniai teikėjai, pavyzdžiui, „Openai“ ar „Openai“ ar „Openai“, negali priartėti prie tų greičių.

Tačiau modelis dar nėra viešai prieinamas – suinteresuoti vartotojai turi prisijungti prie laukiančiųjų sąrašo, tačiau ankstyvieji įvaikintojai pasidalino įspūdingais rezultatais, rodančiais modelio greitį ir tikslumą.

Rankiniai su „Google“ AI įrankiais

Mes susitvarkėme su keliomis naujosiomis „Google“ AI funkcijomis, kurių rezultatai buvo įvairūs, atsižvelgiant į pakopą.

Gilūs tyrimai yra ypač galingi – net ir mušant „ChatGpt“ alternatyvą. Šis išsamus tyrimų agentas įvertina šimtus šaltinių ir pateikia patikimą informaciją su minimaliomis klaidomis.

Tai, kas suteikia pranašumą prieš „Openai“ tyrimų agentą, yra galimybė generuoti infografiką. Sukūręs išsamų tyrimų tekstą, tai gali sutelkti šią informaciją į vizualiai patrauklus skaidres. Mes pateikėme modelį viską apie naujausią „Google“ pranešimą, ir jis pateikė tikslią informaciją per diagramas, schemas, grafikus ir proto žemėlapius.

„VEO 3“ išlieka išskirtinai „Gemini Ultra“ vartotojams, nors kai kurie trečiųjų šalių tiekėjai, tokie kaip „Freepik“ ir „Fal.ai“, jau siūlo prieigą per API. „Flow“ negalima išbandyti, nebent pavasarytumėte „Ultra“ plano.

„Flow“ įrodo, kad yra intuityvus vaizdo įrašų redaktorius su „Veo“ modeliais, kurie vartotojams leidžia redaguoti, pjaustyti, išplėsti ir modifikuoti AI scenas, naudojant paprastus teksto raginimus.

Tačiau net „Veo2“ šiek tiek pamilo, o tai palengvina „Pro“ vartotojų gyvenimą. Kartos su dabar prieinamu VEO2 yra žymiai greitesnės-mes sukūrėme 8 sekundes vaizdo įrašo maždaug per 30 sekundžių. Nors „VeO2“ trūksta garso ir šiuo metu palaiko tik tekstą į vaizdo įrašą (netrukus pasirodys vaizdas į vaizdo įrašą), jis suprato mūsų raginimus ir netgi sukūrė nuoseklų tekstą.

„VeO2“ jau palyginti su „Kling 2.0“ – beveik laikomas kokybišku etalonu generacinėje vaizdo įrašų pramonėje. Atrodo, kad naujos kartos su „VeO3“ yra dar realistiškesnės, nuoseklios, turinčios gerą fono garsą ir gyvybingą dialogą bei balsus.

„Imagen“ iš pirmo žvilgsnio sunku nustatyti, ar „Google“ įtraukia 4 versiją, ar vis dar naudoja 3 versiją savo „Gemini Chatbot“ sąsajoje, nors vartotojai tai gali patvirtinti per šluotelę. Mūsų pradiniai testai rodo, kad „Imagen 4“ prioritetą teikia realizmui, jei nenurodyta kitaip, su geresniu greitu laikymu ir vaizdais, kurie viršija jo pirmtaką.

Mes sukūrėme vaizdą su skirtingais elementais, kurie paprastai netinka toje pačioje scenoje. Mūsų raginimas buvo „Moters su oda, pagaminta iš stiklo, nuotrauka, apsupta tūkstančių blizgučių ir eterinių gabalų baroko kambaryje su žodžiu„ iššifruoti “, parašytas neoniniu, realistiniu“.

Nors ir „Imagen 3“, ir „Imagen 4“ suprato koncepciją ir elementus, „Imagen 3“ nesugebėjo užfiksuoti realaus stiliaus – tai lengvai padarė 4. Apskritai, „Imagen 4“ yra palyginamas su „SOTA“ vaizdo generatoriais, ypač atsižvelgiant į tai, kaip lengva jį paskelbti.

Garso apžvalgos taip pat pagerėjo, nes modeliai dabar lengvai teikia daugiau nei 20 minučių visiškų diskusijų apie „Dvynius“, užuot priverstę vartotojus pereiti prie „NotebooksLM“. Tai daro „Gemini“ išsamesne sąsaja, sumažinant suskaidymą, dėl kurio anksčiau reikėjo vartotojų šokinėti tarp skirtingų svetainių įvairioms paslaugoms.

Kokybė yra panaši į „NotebookLM“, kurių vidutiniškai yra šiek tiek ilgesnės išėjimai. Tačiau pagrindinė savybė nėra ta, kad modelis yra geresnis, bet kad jis dabar yra įterptas į „Gemini“ „Chatbot“ vartotojo sąsają.

Premium ai už aukščiausios kainos kainą

„Google“ neslėpė savo pinigų gavimo strategijos. Bendrovės „Ultra“ planas kainuoja 250 USD per mėnesį, sujungimo prioriteto prieigą prie galingiausių modelių, „Flow AI Tools“ ir 30 terabaitų saugyklų – aiškiai nukreipiantys filmų kūrėjams, rimtiems kūrėjams ir verslui. 20 USD „AI Pro“ pakopos atrakina ankstesnį „Google“ „VeO2“ modelį, taip pat platesnės vartotojų bazės vaizdo ir produktyvumo funkcijas. Pagrindinės generacinės priemonės, tokios kaip paprastas „Dvynių gyvas“ ir „Image“ kūrimas, nemokamai atsiriboja, tačiau su tokiais apribojimais kaip „Token Cap“ ir tik 10 tyrimų per mėnesį.

Šis pakopinis požiūris atspindi platesnę AI rinkos tendenciją: „Drive Mass“ įvaikinimas su nemokamomis dovanomis, o po to užsifiksuoja profesionalus, kurių funkcijos yra pernelyg naudingos, kad būtų galima perduoti. „Google“ statymas yra tas, kad tikrasis veiksmas (ir marža) yra aukštos klasės kūrybinis darbas ir automatizuotos įmonės darbo eigos-ne tik atsitiktiniai raginimai ir meme generavimas.

Redagavo Andrew Haywardas

Paprastai protingas Informacinis biuletenis

Savaitės AI kelionė, kurią pasakojo generacinis AI modelis.

Nuoroda į informacijos šaltinį

Dvyniai: paieškos ir „teksto difuzijos“ maitinimas ir „teksto difuzija“

Rankiniai su „Google“ AI įrankiais

Premium ai už aukščiausios kainos kainą

Paprastai protingas Informacinis biuletenis

Susiję įrašai