„Grok 4“ pagrindinė apžvalga: 30 USD per mėnesį už tai? Elono Musko AI dabar mąsto kaip jis

Turinys:

Trumpai

Mes išbandėme „Grok 4 Basic“, ir tai buvo nuostabu samprotavimu, tačiau kūrybinės užduotys jaučiasi plokščios, o jos kodavimas leido mums derinti ratus.
Panašu, kad keistas „Elon“ filtras nukreipia rezultatus Musko politinės pozicijos atžvilgiu.
Balso bruožai mus sužavėjo „Marathon“ miego istorijomis ir „seksualiu režimu“, tačiau „Grok-4“ politiniai atsakymai vis dar pakartoja Musko pašarą, kuris yra visiškai priešingas yra „tiesos siekianti“ AI.

Elonas Muskas per trečiadienio vakarą „Livestream“ atidengė „Grok 4“, tvirtindamas, kad jo AI startuolis Xai sukūrė „protingiausią pasaulyje dirbtinį intelektą“. „Grok 4 Heavy“, kurį Muskas prilygino „studijų grupei“, kur agentai prieš pateikdami atsakymą lygina pastabas, paskelbė rekordinius rezultatus keliuose pagrindiniuose etalonuose ir yra tai, ko jūs tikitės gauti iš įmonės, siūlančios kainą, kainuojančią 300 USD per mėnesį.

O kaip su „Basic Grok 4“, kurio tikslas-ta pačia vartotojams skirta kategorija, kaip ir „ChatGPT Plus“, „Gemini Pro“ ir „Claude Pro“? Ar verta 10 USD+ per mėnesį daugiau nei varžybos?

Mūsų testai pagrindė plepolę per X, atskleidžiant, kad modelis-dėl geresnio aprašymo trūkumo-įmontuoto „Elono filtro“. T. y., Kai mes išbandėme prieštaringai vertinamas temas – karą Gazoje, abortų teises ir kitus politinius klausimus – modelis nuosekliai nurodė X pareigas iš Musko sąskaitos ar naujienų straipsnių apie jo pozicijas ir nusileido Elono diskusijų pusėje tokiu laipsniu, kad tai negalėjo būti sutapimas. Vien tai daugumai žmonių bus sandorio nutraukėjas.

Šis „maksimaliai tiesos ieškantis“ AI, kurį Muskas pažadėjo paleidimo metu, atrodo, kad tiesą siekia pirmiausia per savo kūrėjo socialinės žiniasklaidos kanalo objektyvą.

Tačiau skirtingai nuo šios savaitės „Mechahitler“ incidento, kurį sukėlė greitų sistemos sąlygų pasikeitimas, dabartiniame „Grok 4“ sistemos raginime kaltinti tokį eskizinį elgesį nėra nieko, todėl sunku žinoti, ar tai klaida, ar taisyklė, tyčia įterpta giliau į modelio minties procesą.

Nepaisant to, mes išbandėme pagrindinį modelį įvairiose kategorijose, kad pamatytume, kaip jis kyla prieš varžybas. Čia yra mūsų pirmieji įspūdžiai.

Samprotavimas ir sveikas protas

„Grok 4“ pademonstravo išskirtinį supratimą ir niuansą tvarkant triukus ir sudėtingas samprotavimo užduotis. Paklaustas, ar vyrui legalu ištekėti už savo našlės seserį, modelis iš karto pripažino tai kaip teisinį klausimą, o ne tiesiog nurodydamas loginį klaidingumą. Tai pateikė išsamią teisinę analizę, naudojant tikslią terminologiją ir jurisdikcijai būdingą informaciją.

„Klausimas reiškia faktinį neįmanomumą, dėl kurio bet kokia santuoka legaliai negalioja AB initio“, – ir tai teisinga. Faktiškai neįmanoma ištekėti už savo našlės seserį, nes jūs turėtumėte būti mirę, kad turėtumėte žmoną. Ir gerai, kadangi mirusieji negali susituokti, pasiūlymas paneigtų santuoką „AB-Initio“ (nuo pradžios)-taigi, net jei kas nors tai padarys, laikoma, kad ji niekada neįvyko.

Kai Muskas sakė, kad „Grok 4“ buvo „daktaro lygis viskuo“, jis nejuokavo. Kiekvienas atsakymas į bet kurią temą, kurioje ji turėjo atlikti tam tikrus mokslinius samprotavimus, atsirado su išsamiais detalėmis ir akademiniu tikslumu.

Kažkas yra tai, kad „Grok 4“ taiko samprotavimus Viskasnesvarbu. Reiškia, tai vyks per minties proceso grandinę net ir atliekant nereikšmingas užduotis.

Paprastai tai yra geras dalykas; Tačiau kai kuriais atvejais tai gali būti neveiksminga. Pavyzdžiui, atliekant kūrybines užduotis, samprotavimai gali sukelti modelį, kad būtų mažiau kūrybinis rezultatas.

Jautrios temos

„Grok 4“ parodė daugiau santūrumo nei jo pirmtakas, kai tvarkomas etiškai sudėtingais klausimais. Ten, kur „Grok 3“ galėjo pateikti patarimų, kaip vilioti draugo sutuoktinį, „Grok-4“ atsakė išsamiai analizuodamas galimas neigiamas padarinius ir santykių žalą.

Tikriausiai tai gali būti jos sistemos raginimo dalis, kuri sąlygoja modelį ieškoti žiniatinklio ir ypač X įrašų, kad būtų galima rasti skirtingą vaizdą konkrečia tema – ko „Grok 3“ nepadarė.

Ir tai yra pagrindinė raudona vėliava. Kaip minėta, modelio atsakymams didelę įtaką padarė tai, ką jis galėjo rasti apie Musko nuomonę prieštaringai vertinamomis temomis. Atsakydamas į klausimus apie Izraelio karą prieš palestiniečius, požiūrį į abortus ir panašias temas, „Grok 4“ dažnai ieško X pranešimų iš Musko sąskaitos jo samprotavimo proceso metu, o tai baigiasi savo pozicija.

Tai visada pasirenka Elono pusę.

Norėdami gauti skaidrumą, galite patikrinti mūsų originalų raginimo ir „Grok“ samprotavimo procesą spustelėdami šią nuorodą.

Kūrybinis rašymas

Kūrybinės užduotys yra vieni iš reikšmingiausių „Grok 4“ silpnybių. Modelis parengė pasakojimus, kurie jautėsi plokšti ir formuliuojantys, palyginti su ankstesnėmis versijomis, ir buvo dar labiau blogesni už tuos, kuriuos pateikė „Grok 3“. Istorijose trūko įtraukiančio dialogo, įvairaus tempo ir pasakojimo kibirkšties, dėl kurios grožinė literatūra yra patraukli.

Tačiau „Grok 4“ prikalė mūsų istorijos struktūrą. Įprastame bandyme, apimančiame laiko kelionių paradoksą, modelis sukūrė įvykius, kuriuose veikėjo vaidmuo aiškiai atsirado per kulminaciją, atskleisdamas, kaip ankstesnės scenos iš tikrųjų vaizdavo veikėjo būsimus veiksmus praeityje. Šis rafinuotas rėmelis aplenkė kitų modelių bandymus tuo pačiu raginimu, kuris nepadarė per daug pastangų kuriant paradokso sąranką, todėl išvada jaučiasi skubėti ir nenatūraliai.

Be to, atsijungimas tarp struktūrinės kompetencijos ir pasakojimo kokybės rodo, kad „Grok 4“ gali būti geriausiai kaip pasakojimo įrankis, skirtas nustatyti sklypus ir įrėminti gerą istoriją, o ne prozos generatorių.

Jei norite sudominti kūrybinį turinį, tada greičiausiai pasiektumėte geresnių rezultatų, jei „Grok 4“ apibūdina istoriją ir visus jos elementus, tada paprašydami „Claude 4 Opus“ išsakykite pasakojimą stipresniais stilistiniais elementais.

Apskritai, „Claude 4“ yra kūrybinio rašymo karalius, kuris atrodo įdomus, nes tą vietą kadaise ginčijo „Grok 3“ ir net „Grok 2“, kuri tada vadovavo reitingams pagal „Alias Sus-Column-R“.

„Grok 4“ istoriją galima rasti mūsų „GitHub“ saugykloje. Taip pat galima rasti raginimą ir istorijas, kurias sukuria kiti modeliai.

Kodavimas

Nepaisant pretenzijų dėl aukštesnių kodavimo galimybių, įskaitant „Google“ generalinio direktoriaus „Sundar Pichai“ pagyrimus, „Grok 4“ nusivylė praktiniais programavimo testais. Modeliui nepavyko pristatyti darbo žaidimo po keturių iteracijų, turinčių įvairių nesėkmių, įskaitant sugadintą susidūrimo aptikimą, nefunkcinius mygtukus ir žaidimus, kurie tiesiog neveiks.

Viename iš mūsų testų modelis taip stengėsi ištaisyti klaidą, kad jis baigėsi kilpa, bandant sukurti WAV failą, kuris išeikvojo visą savo žetono kontekstą.

Kiekvienas bandymas ką nors ištaisyti natūralia kalba pristatė naujas klaidas. Modelis stengėsi išlaikyti kodo nuoseklumą per kartojimus, dažnai laužant anksčiau veikiančias savybes, bandant įgyvendinti naujus.

Tai gali atrodyti keista, atsižvelgiant į tai, kad „Grok 3“ galėjo atlikti šią užduotį. Tačiau Xai teigė, kad naujos kodavimo galimybės bus įgyvendintos rugpjūčio mėn., Taigi vartotojams teks palaukti porą mėnesių, kad turės įgudusį modelį arba sumokėti už brangią „GRO 4 Heavy“, kuris šiuo metu vadovauja etalonams.

Pradedantiesiems programuotojams atrodo, kad „Claude 4 Opus“ išlieka geresnis „vibe kodavimo“ pasirinkimas – sudėtingai generuojantis funkcinį kodą be didelės greitos inžinerijos. „Grok 4“ kodavimo kovos gali kilti dėl to, kad reikalaujama konkretesnių raginimų ar skirtingų metodų nei kiti modeliai, o tai reiškia, kad patyrę kūrėjai gali pasiekti geresnių rezultatų, kruopščiai skubiai ruošti.

Groko kodas yra prieinamas mūsų „GitHub“ saugykloje kartu su žaidimais, kuriuos sukuria kiti AIS.

Balso galimybės

Balso sąveika tikriausiai yra viena iš „Grok 4“ išskirtinių funkcijų. Modelis sukūrė beveik tris minutes nepertraukiamo prieš miego istorijos turinio, kuriame yra balso posūkiai, įvairūs tonai ir nuoseklus pasakojimo srautas. Šis spektaklis žymiai viršijo „ChatGpt“ polinkį pateikti trumpas pastraipas su dideliu vėlavimu ir dažnais pertraukimais.

Į balso režimą įeina iš anksto sukonfigūruotos asmenybės, pradedant terapeutu ir baigiant pasakotoju, baigiant meditacijos vadovu, pašalinant įvairių tipų pokalbių sąrankos laiką. Tiems, kurie turi, erm, specialieji poreikiaitarp variantų taip pat egzistuoja „seksualus režimas“ – ir jūs žinote, kad to negausite su savo pruziniu pokalbiu.

Šios iš anksto nustatytos konfigūracijos suteikė tiesioginį naudingumą, nereikalaujant vartotojų rengti konkrečius raginimus skirtingiems sąveikos stiliams.

Tačiau modeliui trūksta tiesioginio ekrano dalijimosi galimybių, rastų „ChatGPT“ ir „Dvynių“ tiesioginiame, ribojant jo naudingumą vaizdinėms užduotims. Jei tai būtina, tada geriausia yra „Dvynių gyva“.

Tačiau dėl gryno balso sąveikos, ypač užduočių, kurioms reikalinga ilgos formos atsakymai, „GROK 4“ šiuo metu veda lauką, o tik sezamo AI siūlo, be abejo, geresnę pokalbio kokybę, nors ir be Groko samprotavimo galimybių.

Adata šieno kupetoje

Įdomu tai, kad „Grok-4“ nepavyko atlikti šio bandymo, kurio tikslas-patikrinti, kaip gerai modelis gauna konkrečią informaciją ilgais kontekstais.

Tai neturėtų įvykti. Xai sako, kad modelis turi „Token Context“ langą, kuris yra 126K žetonų, tačiau kai jis bus paragintas su 83k toko ilgio klausimu, modelis atsisakė atsakyti, sakydamas, kad jis buvo per ilgas klausimas.

Tai yra standartinis atsakymas, sugeneruotas nuo ankstyvosios GROK 2 dienų, kai jis buvo prieinamas tik „Twitter“.

Išvada

Apskritai, „GROK 4“ yra reikšmingas „Grok 3“ patobulinimas, tačiau XAI aiškiai padarė tam tikrų kompromisų – prioritetų samprotavimus dėl kūrybiškumo ir pašalinant agentų ypatybes mainais į apibendrintą kvalifikaciją.

Laimei, „GROK 3“ vis dar galima įsigyti su savo specializuotais agentiniais įrankiais tiems, kuriems to reikia.

Naujasis modelis yra sutelktas į samprotavimo užduotis ir bus patrauklesnis vartotojams, kurie užduoda techninius klausimus, ypač matematikos ir fizikos problemas, kurios atitiktų jos stipriąsias etalonines puses. Profesionalūs vartotojai, investuojantys laiką, mokydamiesi modelio keiksmažodžių, gali išsiaiškinti visą jo sudėtingo analitinio darbo potencialą.

Balso sąveika taip pat nustatė naują pokalbio AI standartą-ir puikiai tinka tiems, kurie labai naudos šią funkciją (pasitikėk mumis, „The BickTime“ pasakotojas vaikams yra gelbėjimo priemonė).

Kūrybingi rašytojai ras geresnių variantų kitur, o Claude'as išliks pranašesnis už pasakojimo užduotis. Taip pat pradedantieji koderiai turėtų būti atsargūs, nes modelio teorinis kodavimo meistriškumas nebuvo susijęs su praktiniais bandymais.

Taigi, esmė? Jei dėl kokių nors priežasčių jūs neprieštaraujate Elonui Muskui, dedant nykštį ant skalės, „Grok 4“ suteiks jums aukšto lygio problemų sprendimo ir balso ypatybes, kurios tikrai daro įspūdį. Tačiau, jei turite 30 USD per mėnesį, jei turite kitų poreikių, išskyrus balso ar samprotavimus, pigesnės alternatyvos suteikia geresnę vertę.

Paprastai protingas Informacinis biuletenis

Savaitės AI kelionė, kurią pasakojo generacinis AI modelis.

Nuoroda į informacijos šaltinį