„Alibaba“ kuria „Qwen-Robot“: operacinę sistemą robotų ekonomikai

Trumpai tariant

  • „Alibaba“ pristatė „Qwen-Robot Suite“ – dirbtinio intelekto modelių trejetą, skirtą valdyti roboto navigaciją, manipuliavimą ir fizikos pagrindu sukurtą pasaulio modeliavimą naudojant vieningą programinės įrangos paketą.
  • Bendrovė teigia, kad jos modeliai yra pirmaujantys daugelyje robotikos etalonų, naudojant milijonus mokymo pavyzdžių ir dešimtis tūkstančių valandų atvirojo kodo robotų duomenų.
  • Realaus pasaulio robotų diegimas liko metų.

„Alibaba“ komanda „Qwen“ antradienį atsisakė „Qwen-Robot Suite“: trys pagrindiniai modeliai sudaro tai, ką jie vadina „pilną įkūnyto intelekto krūvą“. Qwen-RobotNav valdo mobilumą. Qwen-RobotManip tvarko manipuliavimą. „Qwen-RobotWorld“ imituoja fiziką, kuri leidžia abiem. Kiekvienas dirba savarankiškai. Kartu jie yra „Android“ akimirka robotikai – operacinei sistemai, o ne aparatinei įrangai.

Šiuo metu „Alibaba“ yra vienintelė įmonė Kinijoje, apimanti lustus, debesį, modelius, aptarnavimo platformas ir programas. Įmonei robotika yra fiziškiausia šio statymo išraiška, vadinama įkūnytu AI.

AI agentai šiuo metu pasikliauja LLM, kad galėtų priimti sprendimus. Įprastas robotų darbo būdas yra mašininio mokymosi modeliai, kurie, nors ir pažangūs, stokoja generatyvinio AI pritaikomumo. Fiziniai agentai susiduria su skirtinga, sunkesnė klase gedimo režimais: fizika, o ne raginimai.

Šiais atvejais „Alibaba“ pristatė šį naują AI rinkinį su skirtingais komponentais:

„Qwen-RobotNav“ sujungia penkias navigacijos užduotis – nurodymų sekimą, taško navigaciją, objektų paiešką, tikslo sekimą ir autonominį vairavimą – kiekvienai iš jų reikia skirtingų vaizdinės atminties strategijų. Dauguma modelių „kietojo kodo“ strategiją. Qwen-RobotNav atskleidžia parametrizuotą sąsają: žetonų biudžetą, laikiną mažėjimą, kiekvienos kameros svorį, kurį planuotojas gali perkonfigūruoti epizodo viduryje.

Apmokytas 15,6 mln. mėginių ir atsitiktinių imčių pagal visus parametrus, jis pasiekia 76,5 % sėkmės naudojant VLN-CE RxR, vizijos ir kalbos navigacijos etaloną realioje aplinkoje, ir 90 % stebėjimo naudojant EVT-Bench, kuris įvertina agento gebėjimą nuosekliai sekti judančius taikinius.

„Qwen-RobotManip“ sprendžia vieną didžiausių robotų manipuliavimo iššūkių: skirtingi robotai vaizduoja veiksmus iš esmės skirtingais būdais. Franka ranka (roboto tipas su septyniomis judėjimo ašimis) veikia per sąnarių kampus, o ALOHA robotas (nebrangi dvirankio roboto platforma, plačiai naudojama robotikos tyrimuose) vaizduoja veiksmus pagal griebtuvų padėtį ir orientaciją (galinio efektoriaus pozas). Humanoidai prideda dar vieną sudėtingumo sluoksnį, naudodami viso kūno koordinates.

Siekdama sujungti šias nesuderinamas veiksmų erdves, „Alibaba“ susintetino maždaug 38 100 valandų mokymo duomenų iš atvirojo kodo robotų duomenų rinkinių ir žmonių vaizdo įrašų, nepasitikėdamas patentuotų duomenų rinkimu. Modelis užima pirmąją vietą „RoboChallenge Table30-v1“, 20% pralenkdamas ankstesnius metodus.

„Qwen-RobotWorld“ yra pats ambicingiausias: kalbos sąlygotas vaizdo pasaulio modelis, kuriame natūrali kalba traktuojama kaip universali veiksmų sąsaja. „Pasiimk raudoną puodelį ir užpilk vandens ant gėlės“ veikia nepriklausomai nuo to, ar aktorius yra griebtuvas, autonominė transporto priemonė ar mobilus navigacijos agentas.

Įkūnytų pasaulio žinių korpusas apima 8,6 milijono vaizdo ir teksto porų – 200 milijonų kadrų – manipuliavimo (5,9 milijono pavyzdžių, 1 300 ir daugiau įgūdžių, 20 ir daugiau morfologijų), autonominio vairavimo (Waymo, NVIDIA PhysicalAI-AD, Bench2Drive), patalpų navigacijos ir žmogaus-boto perkėlimo (VLNVerse)

Ji užima pirmąją vietą EWMBench ir DreamGen Bench – dviejuose etalonuose, kurie įvertina, ar pasaulio modeliai numato ir sukuria tikrovišką fizinę aplinką. Jis taip pat lenkia visus atvirojo kodo modelius „WorldModelBench“ ir „PBench“ bei puikiai vertina fizikos laikymąsi: Niutono dėsnius, masės išsaugojimą, skysčių dinamiką, gravitaciją.

Robotų ChatGPT?

Nors Vakarų laboratorijos („Google DeepMind“, „Nvidia“, „Figure“, „Physical Intelligence“) siekia panašių tikslų, dauguma jų sutelkia dėmesį į navigaciją ar manipuliavimą, o ne į vieningą, sukomponuojamą rinkinį. „Alibaba“ vertikali integracija iš lustų į programas reiškia, kad jie valdo visą krūvą. Atvirojo kodo fondas skiriasi nuo konkurentų, kurie remiasi privačiais robotų duomenimis.

Yra keletas klaidingų nuomonių, kurias vertėtų pašalinti: tai ne robotai, o programinės įrangos modeliai – smegenys, o ne kūnai. Jie veikia su AgileX, Franka, Universal Robots, Unitree ir kt.

Be to, nepaisant to, kad tai yra generatyvūs AI modeliai, skirti robotams, tai nėra LLM, kaip įprastas „ChatGPT“. Kalbos modelis numato žetonus. Šie modeliai turi suprasti fiziką, erdvinius ryšius ir fizinių veiksmų pasekmes. Kalbos modelis rodo, kad nukritus stiklas dūžta. „Qwen-RobotWorld“ numato, kaip jis nutrūks – sudužimo modelis, skysčio dinamika, antriniai susidūrimai. Qwen-RobotManip planuoja sugriebimą, kuris visiškai apsaugotų nuo kritimo.

Nesitikėkite, kad greitai turėsite savo namų šeimininkės robotą. Atotrūkis tarp kontroliuojamo roboto, kuris deda vaisius į krepšelį, ir roboto, patikimai dirbančio jūsų namuose, yra didžiulis. RoboCasa365, LIBERO-Plus, RoboTwin-Clean2Rand – tai modeliavimo etalonai. Realiame pasaulyje įdiegus jutiklių triukšmą, pavaros mechanizmo poslinkį ir ilgą kraštinių dėklų uodegą, kuri sumenkino visas robotikos pastangas istorijoje, ir Alibaba tai pripažįsta.

Tačiau techniniai pasiekimai yra tikri. „RobotManip“ pirmasis suderinimo metodas išsprendžia tikrą kliūtį treniruojant kryžminį įkūnijimą. RobotNav parametrizuota stebėjimo sąsaja yra protingas konteksto strategijos problemos sprendimas. „RobotWorld“ kalbos kaip universalaus veiksmo sąsaja yra tinkama abstrakcija kelių domenų pasaulio modeliavimui.

„Alibaba“ neatskleidė kainų, terminų ar klientų, kuriuos gali pasiekti ne tik bandomosios programos.

Dienos apžvalga Naujienlaiškis

Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.

Nuoroda į informacijos šaltinį

Draugai: - Marketingo agentūra - Teisinės konsultacijos - Skaidrių skenavimas - Klaipedos miesto naujienos - Miesto naujienos - Saulius Narbutas - Įvaizdžio kūrimas - Veidoskaita - Teniso treniruotės - Pranešimai spaudai - Kauno naujienos - Regionų naujienos - Palangos naujienos