Turinys:
ToggleTrumpai
- „DeepMind“ „Dvynių robotikos“ modeliai mašinoms suteikė galimybę prieš vaidinti galimybę planuoti, protus ir net ieškoti perdirbimo taisyklių internete.
- Užuot stebėję scenarijus, naujoji „Google“ AI leidžia robotams pritaikyti, išspręsti problemas ir perduoti įgūdžius tarpusavyje.
- Nuo pakavimo lagaminų iki šiukšlių rūšiavimo robotai, varomi „Gemini-er 1.5“, parodė ankstyvuosius žingsnius link bendrosios paskirties žvalgybos.
„Google Deepmind“ šią savaitę išleido du AI modelius, kuriais siekiama, kad robotai būtų protingesni nei bet kada. Užuot sutelkę dėmesį į šiuos komentarus, atnaujinta „Gemini Robotics 1.5“ ir jos kompanionas „Gemini Robotics-ER 1.5“ priverčia robotus galvoti apie problemas, ieškoti informacijos internete ir perduoti įgūdžius tarp skirtingų robotų agentų.
Anot „Google“, šie modeliai žymi „pagrindinį žingsnį, kuris gali naršyti po intelekto ir miklumo fizinio pasaulio sudėtingumą“.
„Gemini robotika 1,5 žymi svarbų etapą, kaip išspręsti AGI fiziniame pasaulyje“, – pranešime teigė „Google“. „Pristatydami agentų galimybes, mes peržengiame ne tik modelius, kurie reaguoja į komandas ir kuria sistemas, kurios gali iš tikrųjų pagrįsti, planuoja, aktyviai naudoja įrankius ir apibendrina.”
Ir šis terminas „apibendrinimas“ yra svarbus, nes modeliai su juo kovoja.
Šių modelių varomi robotai dabar gali atlikti užduotis, pavyzdžiui, rūšiuoti skalbinius pagal spalvas, supakuoti lagaminą, pagrįstą orų prognozėmis, kurias jie randa internete, arba tikrindami vietines perdirbimo taisykles, kad teisingai išmestų šiukšles. Dabar, kaip žmogus, galite pasakyti: „Duh, tai ką?“ Tačiau norint tai padaryti, mašinoms reikalingas įgūdis, vadinamas apibendrinimu – galimybė pritaikyti žinias naujoms situacijoms.
Robotai ir apskritai algoritmai paprastai kovoja su tuo. Pvz., Jei išmokysite modelio sulankstyti kelnių porą, jis negalės sulankstyti marškinėlių, nebent inžinieriai užprogramuotų kiekvieną žingsnį iš anksto.
Nauji modeliai tai keičia. Jie gali pasiimti užuominas, skaityti aplinką, daryti pagrįstas prielaidas ir atlikti kelių žingsnių užduotis, kurios anksčiau buvo nepasiekiamos-ar bent jau ypač sunkios mašinoms.
Bet geriau nereiškia tobulas. Pavyzdžiui, viename iš eksperimentų komanda parodė robotus objektų rinkinį ir paprašė jų nusiųsti į teisingą šiukšliadėžę. Robotai naudojo savo fotoaparatą vizualiai atpažinti kiekvieną daiktą, ištraukite naujausias San Francisko perdirbimo gaires internete, o tada įdėkite jas ten, kur jie turėtų eiti idealiu atveju, visi, kaip ir vietinis žmogus.
Šis procesas sujungia paiešką internete, vaizdinį suvokimą ir žingsnis po žingsnio planavimo-priėmimo konteksto suvokimo sprendimus, peržengiančius tai, ką gali pasiekti vyresni robotai. Registruoto sėkmės procentas buvo nuo 20% iki 40% laiko; Ne idealu, bet stebina modelį, kuris anksčiau nesugebėjo suprasti tų niuansų.

Kaip „Google“ paverčia robotus į „Super-Robots“
Du modeliai padalijo darbą. „Gemini Robotics-ER 1.5“ veikia kaip smegenys, išsiaiškindami, kas turi įvykti, ir sukurti žingsnis po žingsnio planą. Tai gali iškviesti „Google“ paiešką, kai jai reikia informacijos. Kai jis turi planą, jis perduoda natūralias kalbos instrukcijas „Gemini Robotics 1.5“, kuri tvarko faktinius fizinius judesius.
Techniškai kalbant, naujasis „Gemini Robotics 1.5“ yra regėjimo kalbos (VLA) modelis, kuris vaizdinę informaciją ir instrukcijas paverčia motorinėmis komandomis, o naujasis „Gemini Robotics-Er 1.5“ yra vizijos kalbos modelis (VLM), sukuriantis daugialypį planą atlikti misiją.
Pavyzdžiui, kai robotas rūšiuoja skalbinius, tai lemia užduotį, naudodamas minties grandinę: suprasti, kad „rūšiuoti pagal spalvą“ baltaodžiai reiškia vieną šiukšliadėžę, o spalvomis kitoje – tada suskaidyti konkrečius judesius, reikalingus kiekvienam drabužių paimimui. Robotas gali paaiškinti savo samprotavimus paprasta anglų kalba, todėl sprendimai tampa mažiau juoda dėžutė.
„Google“ generalinis direktorius Sundaras Pichai įsitraukė į X, pažymėdamas, kad nauji modeliai leis robotams geresnėms priežastims, planuoti iš anksto, naudoti skaitmeninius įrankius, tokius kaip paieška, ir perkelti mokymąsi iš vienos rūšies roboto į kitą. Jis tai pavadino „Google“ „Kitas didelis žingsnis link bendrosios paskirties robotų, kurie yra tikrai naudingi“.
Nauji „Gemini Robotics 1.5“ modeliai leis robotams geresnių priežasčių, planuoti iš anksto, naudoti skaitmeninius įrankius, tokius kaip paieška, ir perkelti mokymąsi iš vienos rūšies roboto į kitą. Kitas didelis mūsų žingsnis link bendros paskirties robotų, kurie yra tikrai naudingi-galite pamatyti, kaip roboto priežastys yra … pic.twitter.com/kw3htbf6dd
– „Sundar Pichai“ (@SUNDARPICHAI) 2025 m. Rugsėjo 25 d
Išleidime „Google“ atkreipia dėmesį į akiratį, kuriuo dalijamasi su tokiais kūrėjais kaip „Tesla“, AI pav. Ir Bostono dinamika, nors kiekviena įmonė laikosi skirtingo požiūrio. „Tesla“ daugiausia dėmesio skiria masinei gamybai savo gamykloms, o Elonas Muskas iki 2026 m. Pažeidžia tūkstančius vienetų. „Boston Dynamics“ ir toliau stumia roboto atletiškumo ribas, naudodamas savo atgalinį atlasą. Tuo tarpu „Google“ lažybos dėl AI daro robotus pritaikomus bet kokiai situacijai be konkretaus programavimo.
Laikas yra svarbus. Amerikos robotikos kompanijos reikalauja nacionalinės robotikos strategijos, įskaitant federalinės biuro įsteigimą, skirtą pramonės skatinimui tuo metu, kai Kinija daro AI, o intelektualius robotus – nacionaliniu prioritetu. Kinija yra didžiausia pasaulyje robotų, dirbančių gamyklose ir kitoje pramoninėje aplinkoje, rinka. Remiantis Vokietijoje įsikūrusi tarptautine robotikos federacija, 2023 m. Veikia apie 1,8 milijono robotų.

„DeepMind“ požiūris skiriasi nuo tradicinio robotikos programavimo, kai inžinieriai kruopščiai koduoja kiekvieną judėjimą. Vietoj to, šie modeliai mokosi iš demonstracijos ir gali prisitaikyti skrendant. Jei objektas slysta nuo roboto suvokimo ar kažkas perkelia ką nors užduoties viduryje, robotas prisitaiko nepraleisdamas ritmo.
Modeliai remiasi ankstesniu „Deepmind“ darbu nuo kovo, kai robotai galėjo atlikti tik pavienes užduotis, pavyzdžiui, maišą ar sulankstomą popierių. Dabar jie kovoja su sekomis, kurios užginčytų daugelį žmonių, pavyzdžiui, pakuoti į kelionę, patikrinę orų prognozę.
Kūrėjams, norintiems eksperimentuoti, yra padalijamas požiūris į prieinamumą. „Gemini Robotics-ER 1.5“, ketvirtadienį paleista per „Gemini“ API „Google AI“ studijoje, tai reiškia, kad bet kuris kūrėjas gali pradėti kurti pagal samprotavimo modelį. Veiksmo modelis „Gemini Robotics 1.5“ išlieka išskirtinis „Select“ (reiškia „turtingi“, tikriausiai) partneriai.
Paprastai protingas Informacinis biuletenis
Savaitės AI kelionė, kurią pasakojo generacinis AI modelis.