Turinys:
ToggleTrumpai
- „Openai“ „GDPVAL“ etalonas išbandė realius darbus – legalius trumpikes, kodą, ataskaitas – ir rado AI, atitinkančius žmonių ekspertus „Breakneck“ greičiu.
- Claude ir GPT-5 pralenkė patyrę patyrę profesionalai 44 profesijose, per kiek daugiau nei metus pagerėjo tris kartus.
- Tyrimas parodė, kad pirmoji sutrikimo banga užklups biure pagrįstus darbus, pradedant koduotojais ir baigiant teisininkais ir žurnalistais.
„Openai“ ketvirtadienį pristatė „GDPVAL“ – etaloną, kuris bando kokybiškai įvertinti, ar AI gali atlikti jūsų faktinį darbą.
Tai nėra hipotetiniai egzamino klausimai, o tikri rezultatai: teisinės trumpikės, inžinerijos brėžiniai, slaugos priežiūros planai, finansinės ataskaitos – toks darbas, tai yra, tai yra hipotekos. Tyrėjai sąmoningai sutelkė dėmesį į profesijas, kai mažiausiai 60% užduočių yra kompiuteriniai-jie apibūdina kaip „daugiausia skaitmeninius“.
Ši apimtis apima profesionalias paslaugas, tokias kaip programinės įrangos kūrėjai, teisininkai, buhalteriai ir projektų vadovai; Finansų ir draudimo pareigos, tokios kaip analitikai ir klientų aptarnavimo atstovai; ir informacijos sektoriaus darbai, pradedant žurnalistais ir redaktoriais, baigiant prodiuseriais ir AV technikais. Sveikatos priežiūros administracija, baltųjų apykaklių gamybos vaidmenys ir pardavimo ar nekilnojamojo turto valdytojai taip pat vaidina gerai.
Tame rinkinyje labiausiai veikiamas AI darbas sutampa su skaitmeninės, daug žiniomis reikalaujančiomis veiklomis, kurias jau gerai elgiasi dideli kalbų modeliai:
- Programinės įrangos kūrimas, kuris yra didžiausias duomenų rinkinio darbo užmokesčio fondas, išsiskiria kaip ypač pažeidžiamas.
- Teisinis ir apskaitos darbas, labai priklausomas nuo dokumentų ir struktūrizuotų samprotavimų, taip pat yra aukštas sąraše, kaip ir finansų analitikai ir klientų aptarnavimo atstovai.
- Turinio kūrimo vaidmenys – redaktoriai, žurnalistai ir kiti žiniasklaidos darbuotojai – sukelia panašų spaudimą, atsižvelgiant į AI didėjantį kalbų ir daugialypės terpės generavimo sklandumą.
Tai, kad tyrime nėra rankinio ir fizinio darbo darbo vietų, pabrėžiama jo ribos: GDPVAL nebuvo skirtas įvertinti poveikį tokiose srityse kaip statyba, priežiūra ar žemės ūkis. Vietoj to, pabrėžiama, kad pirmoji sutrikimo banga greičiausiai užklumpa baltaodžių apykaklę, biure pagrįstus darbus-tai, kas kadaise buvo laikoma labiausiai izoliuota nuo automatikos.
Ataskaitoje remiama dvejų metų „Openai“/Pensilvanijos universiteto tyrimu, kuriame teigiama, kad iki 80% JAV darbuotojų galėjo pamatyti bent 10% jų užduočių, kurias paveikė LLMS, ir maždaug 19% darbuotojų galėjo pamatyti bent 50% jų užduočių. Labiausiai pakenktos (arba pertvarkytos) darbai yra baltaodžiai, sunkūs žinios, ypač įstatymai, rašymas, analizė ir klientų sąveika.
Tačiau nerimą kelianti dalis nėra šiandienos numeriai. Tai trajektorija. Tokiu tempu statistika rodo, kad AI iki 2027 m. Gali suderinti visų žmonių ekspertus. Tai tikrai arti AGI standartų ir gali reikšti, kad net užduotys, laikomos nesaugiomis ar per daug specializuotomis automatizavimui, netrukus gali būti prieinamos mašinoms, grasindami greitai pertvarkyti darbo vietas.
„Openai“ išbandė 1 320 užduotis per 44 profesijas – ne atsitiktines darbo vietas, tačiau vaidmenys devyniuose sektoriuose, kurie skatina didžiąją dalį Amerikos BVP. Programinės įrangos kūrėjai, teisininkai, slaugytojai, finansų analitikai, žurnalistai, inžinieriai: žmonės, kurie manė, kad jų laipsniai apsaugos juos nuo automatizavimo.
Kiekviena užduotis atsirado iš profesionalų, turinčių vidutiniškai 14 metų patirtį – ne stažuotojus ar naujausius gradus, tačiau patyrę ekspertai, kurie žino savo amatą. Užduotys taip pat nebuvo paprastos, vidutiniškai septynias darbo valandas su kai kuriomis keliomis savaitėmis.
Anot „Openai“, modeliai baigė šias užduotis iki 100 kartų greitesnėmis ir žymiai pigesnėmis nei žmonės atliekant kai kurias API specifines užduotis, kurių reikia tikėtis ir tai buvo dešimtmečius. Atliekant labiau specializuotas užduotis, patobulinimas buvo lėtesnis, tačiau vis dar pastebimas.
Net ir apskaičiuodami peržiūros laiką ir retkarčiais nuveikti, kai AI haliucinavo kažką keisto, ekonomika sunkiai pakreipta į automatizavimą.

Tačiau nudžiuginkite: vien todėl, kad darbas yra veikiamas, dar nereiškia, kad jis dingsta. Jis gali būti papildytas (pavyzdžiui, teisininkai ir žurnalistai, naudojantys LLM, kad galėtų rašyti greičiau), o ne pakeisti.
Ir kiek AI praėjo, haliucinacijos vis dar skauda verslui. Tyrimai rodo, kad AI dažniausiai nesugeba sekti instrukcija-35% GPT-5 nuostolių atsirado ne iki galo suvokiant tai, kas buvo paprašyta. Formatavimo klaidos sukėlė dar 40% gedimų.
Modeliai taip pat kovojo su bendradarbiavimu, klientų sąveika ir visa, kas reikalauja tikros atskaitomybės, o „Openai“ pasitraukė iš tyrimo. Niekas dar nesikreipia į AI dėl netinkamo elgesio. Tačiau solo skaitmeniniams rezultatams – pranešimams, pristatymams ir analizėms, užpildančioms daugumą žinių darbuotojų dienų – spraga greitai uždaroma.
„Openai“ pripažįsta, kad „GDPVAL“ šiandien apima labai ribotą skaičių užduočių, kurias žmonės atlieka realiame darbe. Etalonas negali įvertinti tarpasmeninių įgūdžių, fizinio buvimo ar tūkstančio mikrolygio sprendimų, dėl kurių kažkas yra vertingas už jų rezultatų ribų.
Vis dėlto, kai investiciniai bankai pradeda lyginti AI generuojamą konkurentų analizę su žmonių analitikų asmenimis, kai ligoninės vertina AI slaugos planus prieš patyrusių slaugytojų asmenis, o kai advokatų kontoros išbando AI trumpikes nuo asocijuoto darbo-tai nebeįmanoma spėlioti. Tai matavimas.
Paprastai protingas Informacinis biuletenis
Savaitės AI kelionė, kurią pasakojo generacinis AI modelis.