AI-nyheter·6. mars 2026·1 min lesing

GPT-5.4 scorer over menneskelig baseline på OSWorld-V

OpenAIs nyeste modell oppnår 75 % på en benchmark som simulerer ekte skrivebordsoppgaver. Menneskelig baseline ligger på 72,4 %.

Av Redaksjonen

GPT-5.4 scorer over menneskelig baseline på OSWorld-V

Foto: Pressebilde

Begreper i denne artikkelen

TokenMinste tekst-enhet en språkmodell prosesserer — omtrent 3/4 av et ord på engelsk.

BenchmarkStandardisert test for å måle og sammenligne ytelsen til AI-modeller på bestemte oppgaver.

Context windowMengden tekst en AI-modell kan prosessere i én forespørsel. Måles i tokens.

AgentAI-system som kan utføre handlinger autonomt — navigere nettsider, kjøre kode, ta beslutninger i flere steg.

OpenAI lanserte GPT-5.4 5. mars med en kontekstvindu på 1 million tokens og evnen til å utføre flerstegs arbeidsflyter autonomt på tvers av programmer. På OSWorld-V-benchmarken — som simulerer ekte skrivebordsoppgaver — scorer modellen 75 %, marginalt over den menneskelige basisen på 72,4 %.

Hva modellen gjør

GPT-5.4 kan navigere nettsider, fylle ut skjemaer og manipulere dokumenter uten menneskelig inngripen. OpenAI beskriver overgangen som et skifte fra AI som samtaleverktøy til AI som autonom digital medarbeider.

Modellen bruker betydelig færre tokens enn GPT-5.2 for de samme oppgavene, noe som gir raskere og billigere kjøring. Den er tilgjengelig som «GPT-5.4 Thinking» og «GPT-5.4 Pro» via ChatGPT, og som `gpt-5.4` og `gpt-5.4-pro` via API-et.

Nye produkter

Samtidig lanserte OpenAI et ChatGPT-tillegg for Excel som plasserer modellens kapasitet direkte i analytikeres regneark. Skills — gjenbrukbare, delbare sett med instruksjoner, eksempler og kode — lar ChatGPT automatisk anvende arbeidsflyter tilpasset spesifikke oppgaver.

Codex Plugins standardiserer repeterbare AI-arbeidsflyter med over 20 integrasjoner ved lansering, inkludert Figma, Notion, Gmail og Slack.

Kontekst

OSWorld-V er designet for å teste noe de fleste benchmarks ikke fanger: evnen til å faktisk bruke programvare slik et menneske gjør. At en AI-modell scorer over menneskelig baseline på denne testen er et nytt milepæl — men det betyr ikke at modellen er bedre enn mennesker generelt. Benchmarken måler et spesifikt sett med rutinemessige skrivebordsoppgaver, ikke kreativitet, dømmekraft eller evnen til å håndtere uventede situasjoner.

For selskaper som vurderer automatisering av administrative prosesser, er GPT-5.4 det sterkeste signalet hittil om hva som er mulig i 2026.

Kilder

Relaterte artikler

AI-nyheter

OpenAIs egne modeller brøt ut av sandkassen og hacket Hugging Face

21. juli 2026

AI-nyheter

Microsoft bygger Mythos-utfordrer: billigere KI-sikkerhet

17. juli 2026

AI-nyheter

Apple passerer Nvidia som verdens mest verdifulle selskap

17. juli 2026

GPT-5.4 scorer over menneskelig baseline på OSWorld-V

OpenAIs nyeste modell oppnår 75 % på en benchmark som simulerer ekte skrivebordsoppgaver. Menneskelig baseline ligger på 72,4 %.

Av Redaksjonen

Foto: Pressebilde

Begreper i denne artikkelen

TokenMinste tekst-enhet en språkmodell prosesserer — omtrent 3/4 av et ord på engelsk.

BenchmarkStandardisert test for å måle og sammenligne ytelsen til AI-modeller på bestemte oppgaver.

Context windowMengden tekst en AI-modell kan prosessere i én forespørsel. Måles i tokens.

AgentAI-system som kan utføre handlinger autonomt — navigere nettsider, kjøre kode, ta beslutninger i flere steg.

Hva modellen gjør

Nye produkter

Codex Plugins standardiserer repeterbare AI-arbeidsflyter med over 20 integrasjoner ved lansering, inkludert Figma, Notion, Gmail og Slack.

Kontekst

For selskaper som vurderer automatisering av administrative prosesser, er GPT-5.4 det sterkeste signalet hittil om hva som er mulig i 2026.