Turinys:
ToggleTrumpai tariant
- ARFBench yra pirmasis AI etalonas, sukurtas tik iš tikrų gamybos incidentų.
- GPT-5 pirmauja visuose esamuose AI modeliuose 62,7 % tikslumu, bet nusileidžia domeno ekspertams 72,7 % tikslumu.
- Teorinio modelio-eksperto orakulas, apjungiantis dirbtinį intelektą ir žmogaus sprendimus, pasiekia 87,2 % tikslumą ir nustato ribas, ką gali pasiekti bendradarbiaujančios AI ir žmonių komandos.
Dirbtinio intelekto įmonės ir toliau siūlo autonominių svetainių patikimumo inžinierių agentus – DI, kuris tiria gamybos incidentus vietoje žmonių. „Datadog“ įvykdė tikrąjį etaloną dėl tikrų gedimų, o geriausi AI modeliai dar negali įveikti inžinierių, kuriuos jie turėtų pakeisti.
Etalonas yra ARFBench (Anomaly Reasoning Framework Benchmark), bendras Datadog ir Carnegie Mellon projektas. Sukurta iš 63 realių gamybos incidentų, išskirtų iš pačių inžinierių „Slack“ gijų gyvų kritinių situacijų metu – 750 klausimų su atsakymų variantais, apimančiais 142 stebėjimo metriką ir 5,38 mln. duomenų taškų, kiekvienas klausimas patikrintas ranka. Nėra sintetinių duomenų. Jokių vadovėlių scenarijų.
„Dėl sistemos sutrikimų kasmet prarandama trilijonai dolerių“, – rašo tyrėjai. Etalonu tikrinama, ar AI iš tikrųjų gali padėti tai pakeisti.
„Nepaisant pagrindinio tokios klausimais pagrįstos analizės vaidmens atsakant į incidentus, lieka neaišku, ar šiuolaikiniai pagrindų modeliai gali patikimai atsakyti į tokius laiko eilučių klausimus, kuriuos praktikoje užduoda inžinieriai“, – rašoma dokumente.
Klausimai pateikiami trijų pakopų. I pakopa: ar šioje diagramoje yra anomalija? II pakopa: kada tai prasidėjo, koks jis sunkus, kokio tipo?
III pakopa – sunkiausia – reikalauja kryžminio pagrindimo: ar ši diagrama sukelia problemą toje kitoje diagramoje? Štai kur AI subyra. GPT-5 už III pakopos klausimus gauna tik 47,5 % F1 – metrika, kuri nubaudžia modelius už žaidimo atsakymus, pasirenkant labiausiai paplitusią klasę.
„Nepaisant pagrindinio tokios klausimais pagrįstos analizės vaidmens atsakant į incidentus, lieka neaišku, ar šiuolaikiniai pagrindų modeliai gali patikimai atsakyti į tokius laiko eilučių klausimus, kuriuos praktikoje užduoda inžinieriai“, – rašo mokslininkai.
Kaip susidėliojo kiekvienas modelis
GPT-5 pirmavo visus esamus modelius 62,7 % tikslumu – atliekant testą, kai atsitiktinis spėjimas gaunamas 24,5 %. „Gemini 3 Pro“ surinko 58,1 proc. Claude Opus 4,6: 54,8%. Claude'o sonetas 4,5: 47,2%.
Domeno ekspertai surinko 72,7% tikslumą. Ne domeno ekspertai – Datadog laiko eilučių tyrinėtojai, neturintys didelės stebėjimo patirties – vis dar pasiekė 69,7%.
Nė vienas AI modelis neprilygsta nei vienam, nei kitam žmogui.
Modelis, kuris iš tikrųjų buvo visos lyderių lentelės viršūnėje, buvo paties Datadog hibridas: Toto – jų vidinis laiko eilučių prognozavimo modelis – kartu su Qwen3-VL 32B. „Toto-1.0-QA-Experimental“ surinko 63,9 % tikslumą ir aplenkė GPT-5, o naudojo dalį parametrų. Konkrečiai nustatant anomalijas, F1 jis pralenkė visus kitus modelius bent 8,8 procentinio punkto.
Tiksliai sukurtas domeno modelis, parengtas remiantis stebėjimo duomenimis, pranokstantis pasienio bendrosios paskirties sistemą atliekant šią konkrečią užduotį, yra laukiamas rezultatas. Tai esmė.
Vertingiausias atradimas yra ne tai, kuris modelis surinko aukščiausią balą.
„Mes stebime iš esmės skirtingus klaidų profilius tarp pirmaujančių modelių ir žmonių ekspertų, o tai rodo, kad jų stipriosios pusės papildo viena kitą“, – rašo mokslininkai. Modeliai haliucinuoja, praleidžia metaduomenis ir praranda domeno kontekstą. Žmonės klaidingai skaito tikslius laiko žymes ir kartais nesilaiko sudėtingų nurodymų. Klaidos vos sutampa.
Sumodeliuokite teorinį „Model-Expert Oracle“ – tobulą teisėją, kuris visada parenka teisingą atsakymą tarp AI ir žmogaus – ir gausite 87,2 % tikslumą ir 82,8 % F1. Daug aukščiau nei vienas.
Tai ne produktas. Tai dokumentais pagrįstas tikslas – sukurtas iš tikrų ekstremalių situacijų, o ne iš kuruojamų duomenų rinkinių – tiksliai įvertinantis, kiek geresnis žmogaus ir AI bendradarbiavimas galėtų būti atliktas. Lyderių lentelė tiesiogiai transliuojama per Hugging Face. GPT-5 yra 62,7%. Lubos yra 87,2%.
Dienos apžvalga Naujienlaiškis
Pradėkite kiekvieną dieną nuo populiariausių naujienų dabar ir originalių funkcijų, tinklalaidės, vaizdo įrašų ir kt.