Analyse

Open source vs. closed source AI i 2026: Hva vinner?

Llama 4, Qwen 3.5 og Mistral Large 3 mot Claude, GPT og Gemini. Ikke ideologi — konkret ytelse, kostnader og kontroll. Hva bør en norsk CTO velge?

Av Redaksjonen

10. mars 2026

Open source vs. closed source AI i 2026: Hvem vinner?

Illustrasjon: Avisen AI

Begreper i denne artikkelen

BenchmarkStandardisert test for å måle og sammenligne ytelsen til AI-modeller på bestemte oppgaver.

InferenceProsessen der en ferdigtrent AI-modell genererer svar basert på input. I motsetning til trening, der modellen lærer.

Open source AIAI-modeller der kode og/eller vekter er offentlig tilgjengelige, slik at hvem som helst kan bruke og forbedre dem.

Fine-tuningTilpasning av en ferdigtrent AI-modell til en spesifikk oppgave ved å trene videre på et mindre, spesialisert datasett.

GPUGraphics Processing Unit — prosessorbrikke som er essensiell for å trene og kjøre AI-modeller.

Prompt engineeringTeknikken med å formulere instruksjoner til AI for å få best mulig resultat.

MultimodalAI som kan forstå og generere flere typer innhold — tekst, bilder, lyd, video.

Debatten om åpen vs. lukket AI har i flere år vært preget av ideologiske posisjoner. Tilhengerne av åpenhet argumenterer for frihet, transparens og innovasjon. Tilhengerne av lukkede modeller peker på kvalitet, sikkerhet og support. Begge har rett. Begge tar feil.

I 2026 er spørsmålet ikke lenger prinsipielt. Det er praktisk: hvilken modell gir best resultat for din arbeidslast, til en pris du kan forsvare, med et kontrollnivå du trenger?

Ytelsesbildet har endret seg

For to år siden var gapet mellom åpne og lukkede modeller betydelig. I slutten av 2023 scoret den beste lukkede modellen rundt 88 % på MMLU, mens den beste åpne modellen lå på 70,5 % — et gap på 17,5 prosentpoeng. I mars 2026 er gapet effektivt null på kunnskapsbenchmarks og innenfor enkeltsiffer på de fleste resonneringsoppgaver. Epoch AI har målt at åpne modeller nå ligger omtrent tre måneder bak state-of-the-art, ned fra omtrent ett år i slutten av 2024.

Metas Llama 4 Maverick scorer over GPT-4o og Gemini 2.0 Flash på standard benchmarks. Alibabas Qwen 3.5 397B-A17B scorer 88,4 på GPQA Diamond — høyere enn alle andre åpne modeller og nær de beste lukkede. DeepSeek demonstrerte mekanismen: V3-modellen brukte 2,6 millioner GPU-timer mot Llama 3 405Bs 30,8 millioner, en størrelsesorden forbedring i treningseffektivitet.

Men «scorer over» på en Benchmark betyr ikke «fungerer bedre» i produksjon. Lukkede modeller har fortsatt et fortrinn i konsistens, i tooling-integrasjon, og i den typen subtil kvalitet som benchmarks ikke fanger — tone, nyanser i resonnementer, og evnen til å håndtere uventede inputs uten å hallusinere. Claude Opus 4.6 leder SWE-bench med 80,8 %. Gemini 3.1 Pro leder GPQA Diamond med 94,3 %. Ingen åpen modell matcher disse tallene ennå — men gapet krymper raskt.

MMLU: ~92 % (GPT-5.4) vs. ~91 % (Qwen 3.5) — Gap: ~1 % GPQA Diamond: 94,3 % (Gemini 3.1) vs. 88,4 % (Qwen 3.5) — Gap: ~6 % SWE-bench: 80,8 % (Claude Opus) vs. ~70 % (beste åpne) — Gap: ~11 % HumanEval: ~99 % (flere) vs. 99,0 % (Kimi K2.5) — Gap: ~0 %

Kostnader: Der åpne modeller vinner

Kostnadsforskjellen er dramatisk — og nå kvantifisert av forskning. En studie publisert av MIT Sloan i januar 2026 viser at åpne modeller oppnår omtrent 90 % av lukkede modellers ytelse til 87 % lavere Inference-kostnad. Forskerne beregnet at optimal reallokering fra lukkede til åpne modeller kunne spare det globale AI-markedet omtrent 25 milliarder dollar årlig. Lukkede modeller koster i gjennomsnitt seks ganger mer enn åpne alternativer.

Llama 4 Mavericks inferenskostnad estimeres til $0,19–0,49 per million tokens. Claude Opus koster $5–15 per million tokens, avhengig av kontekstlengde. GPT-5.4 ligger på $2,50/$15. Det er en 10–30x prisforskjell for de dyreste sammenligningene.

For selskaper som prosesserer store volumer — tusenvis av dokumenter, millioner av kundeinteraksjoner — er denne forskjellen et forretningsargument som trumfer benchmark-marginer på 2–3 prosentpoeng. Selv med skybaserte API-er for åpne modeller (via Together, Fireworks eller Groq) er prisene vesentlig lavere. Og for de som kan kjøre modeller lokalt, forsvinner inferens-kostnaden nesten helt.

Likevel: a16z-data viser at 41 % av enterprise-kundene planlegger å øke bruken av åpne modeller, ytterligere 41 % vil bytte fra lukket til åpen hvis ytelsen matcher — men bare 18 % planlegger å utelukkende bruke åpne modeller. Markedet beveger seg mot en 50-50-fordeling, ikke et regime-skifte.

Kontroll: Det oversette argumentet

Data forlater nettverket? — Nei / Ja Kan finjusteres? — Ja / Begrenset API-prisjusteringer uten varsel? — Nei / Ja Treningsdata inspiserbare? — Delvis / Nei GDPR-kompatibel lokalt? — Ja / Krever vurdering

For mange norske virksomheter er det viktigste argumentet for åpne modeller ikke pris, men kontroll. En åpen modell kan kjøres lokalt — ingen data forlater bedriftens nettverk. Modellen kan finjusteres på bedriftens egne data. Og den er ikke avhengig av en tredjeparts API som kan endre priser, vilkår eller tilgjengelighet uten forvarsel.

EU AI Act stiller krav til dokumentasjon og risikovurdering av AI-systemer. Med en åpen modell kan du inspisere modellens egenskaper og dokumentere dem. Med en lukket modell er du avhengig av leverandørens dokumentasjon — selv om Code of Practice-rammeverket som GPAI-leverandører som OpenAI og Anthropic har signert, forplikter dem til transparens om treningsdata og copyright-compliance.

Personvern er særlig relevant i norsk kontekst. GDPR og AI-forordningen som trer i kraft sommeren 2026 gjør at sensitive data — pasientjournaler, kundedata, ansattinformasjon — ikke uten videre kan sendes til skybaserte API-er. Lokale modeller løser dette. Helsesektoren, finanssektoren og offentlig sektor har spesielt nytte av åpne tilnærminger der datasensitivitet krever maksimal kontroll.

Begrensningene er reelle

Åpne modeller er ikke gratis. De krever kompetanse for oppsett, drift og Fine-tuning. Du trenger GPU-infrastruktur — enten egne servere eller skybaserte GPU-er. Du trenger folk som forstår kvantisering, kontekstvindu-optimalisering og Prompt engineering for den spesifikke modellen.

For et lite norsk selskap uten dedikerte ML-ingeniører er terskelen høyere enn å betale for en Claude- eller GPT-API. Verktøystøtte og dokumentasjon er tynnere. Fellesskapet er aktivt men spredt. Og når noe går galt, er det ingen supportlinje å ringe.

Dessuten: de beste åpne modellene er ikke helt åpne. Llama 4 har en Community License som krever egne avtaler for selskaper med over 700 millioner månedlige brukere. «Open weight» betyr at du kan bruke modellvektene, men ikke nødvendigvis at du har innsyn i treningsdataene eller treningsprosessen. California Management Review beskriver dynamikken som klassisk disruptiv innovasjon: åpne modeller starter med kostnadsfordeler som demokratiserer tilgang, og forbedres raskt gjennom fellesskapsdrevet innovasjon — men de erstatter ikke nødvendigvis lukkede modeller på de vanskeligste oppgavene.

Hva en norsk CTO bør gjøre

Øverst venstre: Åpen lokal modell (Qwen 9B/27B) Øverst høyre: Åpen via sky-API (Llama 4 Maverick) Nederst venstre: Lukket API (Claude/GPT) Nederst høyre: Hybrid routing (miks)

Svaret er ikke «velg en side». Det er «bruk begge strategisk».

Bruk åpne modeller for oppgaver der kontroll, personvern og volum er viktigst. Bruk lukkede modeller for oppgaver der kvalitet og tooling-integrasjon er viktigst. Sett opp infrastruktur for å kjøre begge — et API-lag som kan rute forespørsler til riktig modell basert på oppgavetype, sensitivitet og kostnadskrav.

Konkret: Qwen 3.5 9B eller 27B lokalt for klassifisering, uttrekk og rutineoppgaver. Llama 4 Maverick via sky-API for mellomstore oppgaver der du trenger Multimodal støtte. Claude Opus eller GPT-5.4 Pro for kompleks resonnering og kodearbeid der kvalitetsmarginen rettferdiggjør prisen.

Det er ikke et ideologisk spørsmål. Det er et arkitekturvalg — og de 25 milliardene MIT-forskerne identifiserte i besparelser venter på organisasjonene som klarer å gjøre det riktig.

Kilder

Relaterte artikler

Analyse

Alphabet tjente rekordmye. Kontantstrømmen ble negativ.

22. juli 2026

Analyse

Det hvite hus anklager Moonshot for å ha kopiert Fable

22. juli 2026

Analyse

Datasentergründeren tok med seg halve milliarden til Sveits

21. juli 2026