Arkitekturen bak moderne språkmodeller. Bruker attention-mekanismer for å forstå sammenhenger i tekst.
Transformer er nettverksarkitekturen som ligger bak alle moderne språkmodeller. Den ble introdusert av Google-forskere i 2017 i artikkelen «Attention Is All You Need» og erstattet tidligere arkitekturer som RNN og LSTM for språkoppgaver.
Kjernen i transformer-arkitekturen er attention-mekanismen, som lar modellen vurdere sammenhengen mellom alle ord i en tekst samtidig. I stedet for å prosessere tekst sekvensielt (ord for ord), kan en transformer prosessere hele setninger parallelt. Dette gir to fordeler: bedre forståelse av kontekst over lange tekster, og mye raskere trening på GPU-er.
Transformer-arkitekturen dominerer fortsatt AI-landskapet, men utfordres av nye tilnærminger. Mixture-of-Experts (MoE) varianter brukes av DeepSeek og Google for å kutte inferenskostnader. State Space Models (SSM) som Mamba utfordrer på sekvensielle oppgaver. Likevel er transformeren grunnlaget som GPT-5, Claude, Gemini og alle andre frontier-modeller bygger på.