Turinys:
ToggleTrumpai
-Chinese AI įrankis „Kling 2.1“ dabar generuoja vaizdo įrašus su sinchronizuotu garsu, įskaitant pėdomis, lietaus ir aplinkos efektus.
- Vos už 9 USD per mėnesį Klingas daugiau nei 20 kartų pakeitė „Google's Veo 3“.
- Mes išbandėme abu įrankius nuo galvos iki galvos: Klingas šviečia dėl kainų ir lankstumo, tačiau VEO vis dar veda dialogo ir garso dizaino kokybę.
Kinijos trumpa vaizdo platforma „Kuaishou“ pridėjo garso generavimo funkciją prie „Kling 2.1“-jos AI varomo vaizdo kūrimo įrankio, leidžiančio vartotojams gaminti klipus su sinchronizuotais garso efektais, tokiais kaip pėdomis, kritulių ir aplinkos triukšmas.
Funkcija, kuri praėjusią savaitę tyliai pasirodė, galima rasti „Kling“ į vaizdą į vaizdo įrašą, kur vartotojai įkelia nejudantį vaizdą, o platforma jį pagyvina tiek judant, tiek su garsu, kurį sukuria dirbtinis intelektas.
Laikas, skirtas „Kling“ prieš „Google's Veo 3“, kuris nuo pat pirmosios dienos paleido su integruotomis garso galimybėmis.
Ankstyvieji „X“ vartotojai gyrė „Kling“ sklandų garso ir vaizdo sinchronizaciją, kai kūrėjas Roberto Nicksonas jį vadino „vienu naudingiausių rinkos modelių“, skirtų generatyvaus vaizdo turiniui sukurti.
Ši funkcija yra nemokama pradinio diegimo metu, prieinama per „Kling“ svetainę ir programą mobiliesiems.
„Kling 2.1“ Vienas naudingiausių modelių rinkoje
– Roberto Nicksonas (@RPNICKSON) 2025 m. Birželio 12 d
„Kling 2.1“ generuoja 5–10 sekundžių spaustukus iki 1080p skiriamosios gebos, naudodama tai, ką įmonė apibūdina kaip „3D spatiotemporalinio dėmesio mechanizmus“, kad sinchronizuotų garsus su vaizdais.
Garso įrankis šiuo metu generuoja tik garso efektus – jokį dialogą ar muziką – ir sukuria kažką panašaus į Pietryčių Azijos kalbos garso įrašą, kai tekstas yra susijęs – labai tonalus ir visiškai nesuprantamas. Bet tai savaime nepakanka vainikuoti „Google“ kaip neginčijamą generatyvaus vaizdo įrašo karalių.
Mes išbandėme naujas „Kling 2.1“ garso funkcijas prieš „Google's Veo 3“, kad pamatytume, kaip padidėja „Upstart“.
Kūrybos kaina
Kainų skirtumas tarp dviejų platformų pasirodo didžiulis.
„Kling 2.1“ garso funkcija yra suderinama tik su standartine versija, o ne aukštesnės klasės „Master Edition“. Tačiau esant dabartiniams tarifams, vartotojai gali sugeneruoti daugiau nei 20 vaizdo įrašų „Kling“ kiekvienam VEO 3 kūriniui.
Pvz., Naudojant „Freepik“ kredito sistemą, viena karta su „Google VEO 3“ šiuo metu parduodama už 4000 kreditų (įprasta kaina yra 8000 kreditų už vaizdo įrašą), tuo tarpu „Kling 2,1“ kainuoja 300 kreditų už vaizdo įrašą.
„Google“ modelis veikia tik per savo 250 USD per mėnesį ultra prenumeratą. „Kling“ galima įsigyti oficialioje svetainėje, siūlančioje keletą nemokamų kartų, o prenumeratos prasideda maždaug nuo 9 USD per mėnesį.
Net ir esant dabartinei „Google“ reklaminių kainų nustatymui, „VeO 3“ išlieka dešimt kartų brangesni nei Kling.
Kūrėjams, kurie žino vaizdo įrašų generavimą, apima daugybę bandymų ir klaidų, nes nesėkmių procentas, kuris nuvilia net pacientų vartotojus, Klingo ekonomika daro eksperimentą įmanomą.
„Kling“ aukščiausios kokybės „Kling“ planą atrakina 1080p skiriamąją gebą, pagerinant bendrą vaizdo kokybę, kartu išlaikant išlaidų pranašumą.
Garso galimybės
Bet jūs gaunate tai, už ką mokate. „VEO 3“ siūlo modernų garso generavimą, tiksliai sintezuojančią kalbą ir suderinančius sudėtingus garso elementus su vaizdinėmis scenomis.
Jos supratimas apie erdvinį garsą ir kontekstinius garsus plačiai pranoko Klingo pasiūlymus.
Nors „Kling 2.1“ negali konkuruoti, sąžiningai, jis nukreiptas į ką nors kita: aplinkos garsai ir foninis efektas – jokio dialogo, jokios muzikos. Taigi kol kas pamiršk apie tuos virusinių AI gatvės interviu. Bandymai generuoti garsą sukuria kalbą.
Vis dėlto scenoms ar vaizdo įrašams, kuriems reikalingas atmosferos garsas, jo rezultatai buvo tinkami.
2. Visureigis visureigis važiuoja per akmenuotą, purviną ir šlapio miško reljefą.
Girdite traškėjimą, purslą, variklio griovį. Jautėsi kaip tikras šaudymas. pic.twitter.com/s0gvhcaqjk
– Zoya ✪ (@zoya_ai) 2025 m. Birželio 12 d
Naujas platformos sugebėjimas pridėti efektus prie esamų tylių vaizdo įrašų suteikia pranašumą, kurio „Veo 3“ negalėjo suderinti.
Vartotojai gali įkelti baigtus vaizdo įrašus ir modifikuoti juos tinkamais garsų peizažais – darbo eiga, kurios „Google“ modelis nepalaiko. Keista, kad „Veo“ gali kurti vaizdo įrašus, tačiau jis negali jų redaguoti.
Be galimybės kurti tyliųjų vaizdo įrašų garsus, „Kling“ taip pat siūlo lūpų sinchronizavimo funkciją.
Vartotojai gali įkelti nuotrauką ir kalbą ar dialogą atskirai, o modelis padarys vaizdo įrašą, kuriame tiriamieji sąveikauja natūraliai, tarsi kalbėtų tarpusavyje pagal įkeltą garso įrašą.
【Kling AI (@Kling_ai)】 Lūpų sinchronizavimo atnaujinimas !! 📢
Pridėta lūpų sinchronizavimo redagavimo funkcija, leidžianti pasirinkti vaizdo įraše rodomus simbolius, pasirinkti, kuris asmuo kalba, ir koreguoja garso laiką. … pic.twitter.com/brvguoglks– seiiiru😈video karta ai x afterefects (@seiiiiiiiiru) 2025 m. Birželio 10 d
Dvidešimt-vienas kartos santykis reiškė, kad kūrėjai gali eksperimentuoti su skirtingais „Kling“ garso metodais, o VEO 3 vartotojai turi prikalti savo garso dizainą mažiau bandymų.
Mobistams ir tiems mokymosi generaciniam vaizdo įrašui Klingo požiūris siūlo daugiau galimybių bandymams ir klaidoms.
Tačiau profesionaliems kūrėjams, kuriems reikalingas tikslus garso ir vaizdo sinchronizavimas ir dialogas, bus rastas modernus „Veo 3“ garso variklis, vertas priemokos.
Vaizdo įrašų kartos kokybė
Vaizdo kokybės testavimas davė netikėtų rezultatų. Bandomojoje scenoje, kurioje vaizduojama moteris, bėganti nuo milžiniško voro, „Kling 2.1“ standartinė versija pralenkė ir „Veo 3“, ir jos paties „Master Edition“.
Standartinis modelis tiksliai parodė scenos dinamiką, parodantį skysčio judesį ir tinkamą kryptinį judesį. „Veo 3“ nepaaiškinamai sukūrė moterį, bėgančią link voro, o ne nuo jos.
„Master Edition“ paprastai sukuria ryškesnius, traškesnius vaizdus, tačiau standartinė versija parodė pranašesnį scenos supratimą ir sklandesnį judėjimą.
Tai yra keista, nes didesnė skiriamoji geba visada turėtų būti verčiama geresnių rezultatų, tačiau galbūt problema kilo iki greitų technikos problemų ar tiesiog nesėkmės kartoje.
Beje, „Kling 2.1“ standartas su 1080p kartomis yra puikus modelis, laikantis savo „Google Veo 3“.
Platformos darbo eigos ir apribojimai
Platformos apribojimai skirtingai formuoja kiekvieno įrankio darbo eigą. „Kling 2.1“ garso funkcija veikia tik su vaizdo įrašais, o ne tekstiniais ir vaizdo įrašais, kurie išlieka išskirtiniai „Master Edition“ be garso palaikymo-taip yra keista, bet būtent tai.
Geriausias sprendimas yra „Kolors“, „Kuaishou“ vaizdo generatoriaus, naudojimas, norint sukurti pradinius rėmus, prieš konvertuojant juos į vaizdo įrašą su sinchronizuotu garsu. „Kolors“ sukuria labai realius vaizdus, kurie yra puikūs vaizdo įrašų generavimo taškai.
Tačiau galite pastebėti, kad modelius, įskaitant „ReVe“, „Midjournney“, „Recraft“, „Flux“ ir net ChatGPT, yra lengviau paskatinti.

„Veo 3“ pasirinko priešingą požiūrį, siūlydama tik „Tex-to-Video“ kartai be jokios vaizdo į vaizdo įrašą.
Tai verčia vartotojus visiškai pasikliauti greita inžinerija, be jokios galimybės valdyti pradinį vaizdą.
„Google“ sprendimas taip pat atrodo ypač keistas, atsižvelgiant į tai, kad ankstesnis VEO 2 iš tikrųjų palaiko vaizdą į vaizdo įrašą per atskirą srauto platformą.

Vizualinės valdymo trūkumas reiškia, kad vartotojai turi aklai generuoti vaizdo įrašus, tikėdamiesi, kad jų teksto raginimai sukels norimus pradinius rėmus.
Turinio moderavimo metodai
Turinio moderavimas atskleidė kontrastingą filosofiją. „VEO 3“ naudoja agresyvų raktinių žodžių filtravimą ir po kartos patikrinimus, blokuodamas turinį, kuris pažeidžia „Google“ politiką.
Sistemos vėliavos gali būti problemiškos prieš generavimą ir analizės baigė vaizdo įrašus, skirtus politikos pažeidimams.

„Kling“ taiko liberalesnius apribojimus, leisdamas „Veo“ turiniui užblokuoti tiesiai.
Tačiau modelio mokymo duomenys natūraliai neįtraukė aiškaus turinio – modelis sukuria figūras be anatominių detalių ir smurto be Gore.
Taigi, vartotojai gali generuoti tam tikrų tipų turinį, kuris apeina raktinių žodžių filtrus, vis tiek išlaikydami saugos ribas.

Abi platformos grąžina kreditus, kai po kartos cenzūra blokuoja vaizdo įrašą, tačiau „Kling“ lengvesnis prisilietimas suteikia daugiau kūrybinės laisvės ribų.
Išvados
„Veo 3“ vis dar gali būti karalius, tačiau „Kling 2.1“ yra tikrai artimas populistui, vykdančiam misiją nuversti monarchiją.
Jos garso funkcija yra gana revoliucinga, kai manote, kad tai yra 9 USD vertės įrankis, konkuruojantis su 250 USD prenumerata.
Atmosferos garsai veikia, lietus skamba kaip lietus, pėdsakai didžiąją laiko dalį atitinka judesį, ir jūs galite generuoti dvidešimt bandymų, o VEO vartotojai atsargiai paruošia savo vieną kadrą.
Ši „Retrofit“ funkcija, kurioje pridedate garsą prie gatavų vaizdo įrašų, yra tai, ko „Google“ nesiūlo, ir tai tikrai naudinga norint išgelbėti tylius klipus.
Viskas atrodys visiškai kitaip, jei jūsų pagrindinis tikslas yra kalba. Klingo gurkšnis niekam neapgaudins.
Tokio tipo specifiniams reikalavimams „Google VeO 3“ yra akivaizdus ir vienintelis pasirinkimas. Karalius yra (beveik) miręs. Tegyvuoja Kling!
Redagavo Joshas Quittneris ir Sebastianas Sinclairis
Paprastai protingas Informacinis biuletenis
Savaitės AI kelionė, kurią pasakojo generacinis AI modelis.