Hva er

Benchmark

Standardisert test for å måle og sammenligne ytelsen til AI-modeller på bestemte oppgaver.

Hva det er

En benchmark er en standardisert test som måler en AI-modells ytelse på spesifikke oppgaver. Benchmarks gjør det mulig å sammenligne modeller objektivt — på koding, matematikk, resonnering, vitenskap og andre domener.

Hvordan det fungerer

En benchmark består av et datasett med oppgaver og fasitsvar. Modellen testes på oppgavene, og resultatet rapporteres som en prosentandel riktige svar. Viktige benchmarks i 2026 inkluderer SWE-bench Verified (koding — løs reelle GitHub-issues), GPQA Diamond (forskning på doktorgradsnivå), AIME 2026 (avansert matematikk), ARC-AGI-2 (generell resonnering) og Arena AI (menneskeranking via blind testing).

Hvorfor det er relevant i 2026

Benchmarks driver konkurransen mellom AI-lab-ene. Når DeepSeek V4 scorer 81 prosent på SWE-bench og Claude Opus 4.6 scorer 80,8 prosent, blir det en teknisk kappløp om desimaler. Samtidig vokser kritikken: mange benchmarks er «mettet» (modellene scorer nær 100 prosent) eller gamification-utsatt. Arena AI med blind menneskeranking har blitt den mest troverdige målestokken.

Relaterte begreper

LLM AGI Inference

Artikler som bruker dette begrepet

Modeller · 24. juli 2026

Benchmark

Hva det er

Hvordan det fungerer

Hvorfor det er relevant i 2026

Claude Opus 5: halve prisen av Fable 5, nesten samme resultat

Det hvite hus anklager Moonshot for å ha kopiert Fable

OpenAIs egne modeller brøt ut av sandkassen og hacket Hugging Face

Qwen3.8-Max: Alibabas svar på Kimi K3 kom på tre døgn

Kimi K3: verdens største åpne modell er ikke billig lenger