Qwen 3.5 Omni: Alibaba AI modelis dabar gali girdėti, žiūrėti ir klonuoti jūsų balsą

Turinys:

Trumpai tariant

„Alibaba“ „Qwen 3.5 Omni“ suteikia tikrą realaus laiko įvairiarūšį DI į pasienio lenktynes.
Natūralus garso ir vaizdo apdorojimas pranoksta susiūtus multimodalinius vamzdynus greičiu ir nuoseklumu.
Balso klonavimas, semantinis pertraukimas ir vibracijos kodavimas rodo perėjimą prie visiškai interaktyvių AI agentų.

„Alibaba“ ką tik atsisakė ambicingiausio AI atnaujinimo.

Bendrovės „Qwen“ komanda sekmadienį išleido „Qwen 3.5 Omni“ – naują „visarūšio“ dirbtinio intelekto versiją, kuri vienu metu apdoroja tekstą, vaizdus, garsą ir vaizdo įrašus bei kalba atgal realiu laiku 36 kalbomis, pastatydama savo modelį tame pačiame mūšio lauke, kaip ir šiuo metu prieinami naujausi DI baziniai modeliai.

1/10 🚀 Qwen3.5-Omni jau čia! Didinama iki vietinio įvairiarūšio AGI.
Susipažinkite su naujos kartos Qwen, sukurtu vietiniam tekstui, vaizdams, garsui ir vaizdo įrašams suprasti, su dideliu intelekto ir sąveikos realiuoju laiku pažanga.
Išskirtinė savybė:
Garso ir vaizdo atmosfera… pic.twitter.com/fWWyTl9cPY

– „Tongyi Lab“ (@Ali_TongyiLab) 2026 m. kovo 30 d

„Omni“ čia nėra tik rinkodaros madingas žodis. Dauguma AI modelių, su kuriais bendraujate, pirmiausia yra teksto įvedimo ir išvedimo sistemos. Kai kurie tvarko vaizdus, o kiti – balsą. „Qwen 3.5 Omni“ visus juos tvarko natūraliai, tuo pačiu metu, nereikia visko konvertuoti į tekstą naudojant trečiųjų šalių įrankius.

Naujasis modelis yra trijų dydžių – „Plus“, „Flash“ ir „Light“ – visi palaiko nedidelį (pagal šiandienos standartus) 256 000 žetonų kontekstinį langą. Jis buvo apmokytas naudojant daugiau nei 100 milijonų valandų garso ir vaizdo duomenų – tai skalė, kuri priskiria ją kitokiai svorio kategorijai nei dauguma konkurentų.

Qwen 3.5 Omni yra Qwen 3 Omni Flash, ankstesnio Alibaba daugiarūšio modelio, išleisto 2025 m. gruodžio mėn., evoliucija. Ši versija jau padarė įspūdį savo galimybe vienu metu apdoroti vaizdo įrašą ir garsą – ji galėjo apdoroti vaizdo redagavimo instrukcijas, sujungiančias kelias vaizdo įvestis taip, kaip konkurentai negalėjo reaguoti kaip į mažą balso signalą2 ir transliuoti 3 signalus.

<!(CDATA(<span data-mce-type="bookmark" style="display:inline-block;width:0px;overflow:hidden;line-height:0" class="mce_SELRES_start"></span>))>

Tai taip pat buvo pirmasis modelis, išbandęs alternatyvą Google NotebookLM. Kažko pasiekė, bet kokybė neprilygo Google pasiūlymui.

„Qwen 3.5 Omni“ perima visa tai ir prideda ilgesnį konteksto langą, geresnį samprotavimą, daug platesnę kalbų biblioteką ir realiojo laiko sąveikos funkcijų rinkinį, kurio ankstesnė karta neturėjo.

Antraštės atnaujinimas yra tai, kas atsitinka, kai iš tikrųjų su juo kalbate. „Qwen3.5-Omni“ dabar palaiko semantinį pertraukimą: jis gali atskirti, ar jūs sakote „uh-huh“ sakinio viduryje ir iš tikrųjų norite įsiterpti, todėl kaskart, kai kas nors kosėja fone, kalbėjimas bus sklandesnis.

Nauja technika, vadinama ARIA, sutrumpintai iš Adaptive Rate Interleave Alignment, taip pat pašalina subtilų, bet nuolatinį susierzinimą: AI sistemas, kurios iškraipo skaičius ar neįprastus žodžius skaitydamos garsiai. ARIA dinamiškai sinchronizuoja tekstą ir kalbą, kad išvestis būtų natūrali ir tiksli.

Tada yra balso klonavimas. Vartotojai gali įkelti balso pavyzdį ir leisti modeliui pritaikyti tą balsą savo atsakymuose – funkcija, dėl kurios Qwen tiesiogiai konkuruoja su ElevenLabs ir kitais specialiais balso įrankiais. Tačiau mums nepavyko pasiekti šios funkcijos, nes tai bent jau kol kas pasiekiama tik per API.

Pagal daugiakalbio balso stabilumo etalonus Qwen3.5 Omni-Plus įveikė ElevenLabs, GPT-Audio ir Minimax 20 kalbų. Modelis taip pat dabar palaiko realaus laiko žiniatinklio paiešką, o tai reiškia, kad jis gali atsakyti į klausimus apie naujausias naujienas ar tiesioginius rinkos duomenis neapsimesdamas, kad jau žino.

Komanda taip pat pabrėžia tai, ką jie vadina „Audio-Visual Vibe Coding“, modelis gali žiūrėti kodavimo užduoties ekrano įrašą arba vaizdo įrašą ir rašyti funkcinį kodą, pagrįstą tik tuo, ką mato ir girdi, nereikalaujant teksto raginimo. Tai nedidelė apžvalga, kaip AI padėjėjai galiausiai gali veikti jūsų darbo eigoje, o ne kartu.

Kad suprastume, ką iš tikrųjų reiškia „visarūšis“ praktiškai, atlikome greitą testą: „Qwen3.5-Omni“ ir „ChatGPT 5.4“ „mąstymo“ režimu pateikėme tą patį „YouTube Short“ – „Dastan“ prezidento („Dastan“ yra pagrindinė „Decrypt“ įmonė) ir komentatoriaus Farokho klipą, aptariantį naujausias naujienas. Qwen 3.5 Omni apdorojo vaizdo įrašą savaime ir maždaug per minutę pateikė išsamią analizę: kas kalbėjo, ką diskutavo, ir esminį komentarą šia tema, pagrįstą savo žiniomis apie temą.

„ChatGPT 5.4“, kuri nėra universali, turėjo susitvarkyti su tuo, ką gavo. Jis ištraukė vaizdo įrašo kadrus, paleido juos per regėjimo modelį, naudojo „Whisper“ garsui transkribuoti ir pritaikė OCR įrankį įterptiesiems subtitrams skaityti – trys atskiri procesai, sujungti, kad apytiksliai būtų suderinti „Qwen3.5-Omni“ vienu praėjimu. Rezultatas užtruko devynias minutes ir tai idealiomis sąlygomis: gerai apšviestas vaizdo įrašas su švariu garsu ir įrašytais subtitrais. Realiame turinyje retai pateikiami visi trys.

Atliekant greitus kelių įvesties testus, modelis taip pat be problemų tvarkė raginimus ispanų, portugalų ir anglų kalbomis – pokalbio viduryje buvo perjungta kalba, neprarandant konteksto.

Pagal standartinius etalonus „Qwen 3.5 Omni Plus“ pranoko „Gemini 3.1 Pro“ bendrų garso supratimo, samprotavimo ir vertimo užduočių srityje ir atitiko garso ir vaizdo supratimą. Kalbos atpažinimas dabar apima 113 kalbų ir tarmių, palyginti su 19 ankstesnės kartos.

Tai antrasis didelis „Alibaba“ AI leidimas per šešias savaites. Vasario mėn. ji pristatė Qwen 3.5 – teksto ir vizijos modelį, kuris atitiko arba pranoko pažangius modelius pagal samprotavimo ir kodavimo etalonus. „Qwen 3.5 Omni“ išplečia šį pagreitį į visą multimodalinę teritoriją, tuo metu, kai visos pagrindinės dirbtinio intelekto laboratorijos stengiasi kurti sistemas, kurios valdytų visą žmonių bendravimo spektrą, o ne tik žodžius ekrane.

Modelis dabar pasiekiamas per „Alibaba Cloud“ API ir gali būti išbandytas tiesiogiai „Qwen Chat“ arba per „Hugging Face“ internetinę demonstracinę versiją.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Trumpai tariant

Dienos apžvalga Naujienlaiškis

Susiję įrašai