AI som kan forstå og generere flere typer innhold — tekst, bilder, lyd, video.
Multimodal AI refererer til modeller som kan forstå og generere flere typer data — tekst, bilder, lyd og video — i stedet for bare én modalitet. En multimodal modell kan for eksempel analysere et bilde og svare med tekst, eller generere et bilde fra en tekstbeskrivelse.
Multimodale modeller bruker separate encodere for ulike datatyper som deretter kobles sammen i et felles representasjonsrom. Tekst, bilder og lyd konverteres til vektorer som modellen kan resonnere over samlet. De nyeste modellene — som GPT-5, Claude Opus 4.6 og Gemini 3 — er nativt multimodale, trent på tekst, bilder og video fra starten.
Multimodalitet har gått fra nisje til standard. Alle frontier-modeller er nå multimodale. Google Gemma 4 støtter tekst, bilde, video og lyd — selv i den minste varianten. Praktiske bruksområder har eksplodert: kodeassistenter som leser skjermbilder, design-verktøy som genererer kode fra wireframes, og analysemodeller som tolker grafer og tabeller direkte.