Standardisert test for å måle og sammenligne ytelsen til AI-modeller på bestemte oppgaver.
En benchmark er en standardisert test som måler en AI-modells ytelse på spesifikke oppgaver. Benchmarks gjør det mulig å sammenligne modeller objektivt — på koding, matematikk, resonnering, vitenskap og andre domener.
En benchmark består av et datasett med oppgaver og fasitsvar. Modellen testes på oppgavene, og resultatet rapporteres som en prosentandel riktige svar. Viktige benchmarks i 2026 inkluderer SWE-bench Verified (koding — løs reelle GitHub-issues), GPQA Diamond (forskning på doktorgradsnivå), AIME 2026 (avansert matematikk), ARC-AGI-2 (generell resonnering) og Arena AI (menneskeranking via blind testing).
Benchmarks driver konkurransen mellom AI-lab-ene. Når DeepSeek V4 scorer 81 prosent på SWE-bench og Claude Opus 4.6 scorer 80,8 prosent, blir det en teknisk kappløp om desimaler. Samtidig vokser kritikken: mange benchmarks er «mettet» (modellene scorer nær 100 prosent) eller gamification-utsatt. Arena AI med blind menneskeranking har blitt den mest troverdige målestokken.