GPT-5.4 scorer over menneskelig baseline på OSWorld-V
OpenAIs nyeste modell oppnår 75 % på en benchmark som simulerer ekte skrivebordsoppgaver. Menneskelig baseline ligger på 72,4 %.

Begreper i denne artikkelen
OpenAI lanserte GPT-5.4 5. mars med en kontekstvindu på 1 million tokens og evnen til å utføre flerstegs arbeidsflyter autonomt på tvers av programmer. På OSWorld-V-benchmarken — som simulerer ekte skrivebordsoppgaver — scorer modellen 75 %, marginalt over den menneskelige basisen på 72,4 %.
Hva modellen gjør
GPT-5.4 kan navigere nettsider, fylle ut skjemaer og manipulere dokumenter uten menneskelig inngripen. OpenAI beskriver overgangen som et skifte fra AI som samtaleverktøy til AI som autonom digital medarbeider.
Modellen bruker betydelig færre tokens enn GPT-5.2 for de samme oppgavene, noe som gir raskere og billigere kjøring. Den er tilgjengelig som «GPT-5.4 Thinking» og «GPT-5.4 Pro» via ChatGPT, og som `gpt-5.4` og `gpt-5.4-pro` via API-et.
Nye produkter
Samtidig lanserte OpenAI et ChatGPT-tillegg for Excel som plasserer modellens kapasitet direkte i analytikeres regneark. Skills — gjenbrukbare, delbare sett med instruksjoner, eksempler og kode — lar ChatGPT automatisk anvende arbeidsflyter tilpasset spesifikke oppgaver.
Codex Plugins standardiserer repeterbare AI-arbeidsflyter med over 20 integrasjoner ved lansering, inkludert Figma, Notion, Gmail og Slack.
Kontekst
OSWorld-V er designet for å teste noe de fleste benchmarks ikke fanger: evnen til å faktisk bruke programvare slik et menneske gjør. At en AI-modell scorer over menneskelig baseline på denne testen er et nytt milepæl — men det betyr ikke at modellen er bedre enn mennesker generelt. Benchmarken måler et spesifikt sett med rutinemessige skrivebordsoppgaver, ikke kreativitet, dømmekraft eller evnen til å håndtere uventede situasjoner.
For selskaper som vurderer automatisering av administrative prosesser, er GPT-5.4 det sterkeste signalet hittil om hva som er mulig i 2026.


