Mengden tekst en AI-modell kan prosessere i én forespørsel. Måles i tokens.
Kontekstvinduet er mengden tekst en AI-modell kan prosessere i én forespørsel, målt i tokens. Det inkluderer både input (det du sender inn) og output (det modellen genererer). Et større kontekstvindu betyr at modellen kan ta hensyn til mer informasjon når den svarer.
Når du sender tekst til en modell, fyller du opp kontekstvinduet. Overskrider du grensen, må du enten kutte tekst eller dele opp forespørselen. Attention-mekanismen i transformere skalerer kvadratisk med kontekstlengden, noe som gjør lange kontekster beregningskrevende. Teknikker som sparse attention og sliding window attention har gjort det mulig å utvide vinduene betydelig.
Kontekstvinduer har eksplodert: Claude Opus 4.6 støtter 1 million tokens (tilsvarende 3 000 sider tekst). Gemini 3 Pro håndterer 2 millioner. Dette har endret hvordan utviklere jobber — hele kodebaser kan sendes inn i én forespørsel. Det har også gjort RAG-arkitekturer enklere fordi mer kontekst kan legges rett inn i prompten.