Hva er

Transformer

Arkitekturen bak moderne språkmodeller. Bruker attention-mekanismer for å forstå sammenhenger i tekst.

Hva det er

Transformer er nettverksarkitekturen som ligger bak alle moderne språkmodeller. Den ble introdusert av Google-forskere i 2017 i artikkelen «Attention Is All You Need» og erstattet tidligere arkitekturer som RNN og LSTM for språkoppgaver.

Hvordan det fungerer

Kjernen i transformer-arkitekturen er attention-mekanismen, som lar modellen vurdere sammenhengen mellom alle ord i en tekst samtidig. I stedet for å prosessere tekst sekvensielt (ord for ord), kan en transformer prosessere hele setninger parallelt. Dette gir to fordeler: bedre forståelse av kontekst over lange tekster, og mye raskere trening på GPU-er.

Hvorfor det er relevant i 2026

Transformer-arkitekturen dominerer fortsatt AI-landskapet, men utfordres av nye tilnærminger. Mixture-of-Experts (MoE) varianter brukes av DeepSeek og Google for å kutte inferenskostnader. State Space Models (SSM) som Mamba utfordrer på sekvensielle oppgaver. Likevel er transformeren grunnlaget som GPT-5, Claude, Gemini og alle andre frontier-modeller bygger på.

Relaterte begreper

LLM GPU Inference

Artikler som bruker dette begrepet

AI-nyheter · 20. mars 2026

Transformer

Hva det er

Hvordan det fungerer

Hvorfor det er relevant i 2026

Meta Llama 4 er her: Tre modeller, én åpen strategi

Huawei 950PR og CUDA-kompatibilitet: Hva det betyr for AI-infrastruktur

Yann LeCun henter 1 milliard dollar til AMI Labs

Qwen 3.5 er ute: Alibabas mest ambisiøse modellserie