Hvilken type leser er du?

Velg en persona, så tilpasser vi opplevelsen. Du kan endre senere.

Merk: Hvis du lukker uten å velge, blir "Hverdangsbrukren" automatisk valgt.

Usikker? Ta vår quiz
Et KI generert bilde av en person som holder en mobil. På mobilskjermen er fremsiden til Gemini vist på skjermen.

Gemini 3 Pro: Dypere visuell forståelse og nye muligheter, men med behov for varsomhet

Gemini 3 Pro: Dypere visuell forståelse og nye muligheter, men med behov for varsomhet

Av
3 min lesetid
TL;DR
  • Gemini 3 Pro er Googles mest avanserte AI for å forstå bilder, video og skjerminnhold.
  • Modellen kan tolke komplekse data og automatisere oppgaver, men reiser spørsmål om personvern og ansvar.
  • Teknologien har stort potensial i utdanning, helse og analyse, men grenser og feilmarginer er fortsatt uklare.
  • Hvor nyttig dette blir i praksis, gjenstår å se – det er flere spørsmål enn svar.

Gemini 3 Pro — navnet som setter seg litt fast

Det begynner med navnet. Gemini 3 Pro. Det er noe tungt og teknisk over det, nesten som om Google har prøvd å gi oss følelsen av et romskip – eller kanskje et band som plutselig har fått for seg å spille klassisk musikk. Men bak navnet skjuler det seg faktisk noe nytt. Dette er Googles mest avanserte AI-modell for syn og forståelse, både av bilder, video og det som skjer på skjermen din. Den ser mer, og – i hvert fall på papiret – forstår mer.

Hva betyr det egentlig? At Gemini 3 Pro ikke bare skal kunne gjenkjenne tekst eller peke ut en katt på et bilde. Nå snakker vi om å tolke håndskrevne notater, kompliserte tabeller, rare matematiske formler – og gjøre dem om til noe maskinen kan jobbe videre med. HTML, LaTeX, Markdown. Det er nesten som å se en digital arkeolog børste støvet av et gammelt dokument og rekonstruere det bit for bit. Google trekker frem eksempler fra gamle handelsbøker til interaktive grafer av Nightingales polardiagram. Det er lett å la seg rive med.

Benchmark-festen

Tallene ruller inn. Google skryter av at Gemini 3 Pro slår konkurrentene på syns-benchmarks som MMMU Pro og Video MMMU, og at den overgår menneskelige resultater på noen områder. 80,5 % på CharXiv Reasoning, hvis du liker sånt. Det er sikkert imponerende – hvis du jobber med lange rapporter og statistikk, kan du nå få AI til å trekke ut figurer, sammenligne tall og gi deg en forklaring. Men benchmarks er jo nettopp det: øvelser under kontrollerte forhold. De sier ikke alltid hvordan ting funker når alt blir litt rotete og uoversiktlig. Hverdagen er sjelden så ryddig som en test.

AI som ser — og klikker

Noe av det mest spennende, eller kanskje mest urovekkende, er hvor god modellen skal være til å forstå «rommet» på skjermen. Det åpner for automatisering på et nytt nivå: tenk en AI som ikke bare leser skjermen din, men faktisk skjønner hvor den skal klikke, scrolle, teste programvare og analysere brukeropplevelse. Praktisk, ja. Også litt skummelt, hvis man ikke tenker på personvern og tilgang. Hvem bestemmer egentlig hva denne agenten får lov til å gjøre? Hvem setter grensene?

Video – ikke bare bilder i bevegelse

Her har Google virkelig skrudd opp ambisjonsnivået: Gemini 3 Pro kan analysere video med ti bilder i sekundet. Ti ganger mer enn vanlig. Det betyr at den ikke bare ser hva som skjer, men kan begynne å forstå hvorfor det skjer. Årsak og virkning, ikke bare overflate. I teorien kan du oversette en lang video direkte til kode eller en app. Det er fristende å klappe for teknologien. Men det er også her det begynner å lugge litt. Video er rotete, uforutsigbart, fullt av nyanser. Hva skjer når AI tolker feil? Hvem har ansvaret da?

Hvem får glede av dette?

Utdanning, sier Google. Nå kan AI hjelpe med matteoppgaver fulle av grafer og diagrammer. Helse og biomedisin – høy score på radiologi og mikroskopi-oppgaver. Økonomi og jus – tettere dokumentanalyse. Det er ikke vanskelig å se potensialet. Samtidig er det verdt å merke seg at Google understreker at Gemini 3 Pro ikke skal brukes til kliniske diagnoser eller pasientbehandling. Det er en grense der, og den er viktig.

For utviklerne blant oss

En liten detalj for de som liker å fikle: modellen bevarer det opprinnelige bildeforholdet, og du kan justere bildekvalitet mot kostnad. Kontroll over tokens, som det heter. Greit å vite hvis du vil bygge noe selv – eller bare liker å vite at du kan skru på knottene.

Pause for skepsis

Det er lett å la seg blende av demoer. Men multimodale modeller kan fortsatt misforstå, hallusinere, eller rett og slett gå seg vill i komplekse sammenhenger. Det er ikke alltid like lett å vite hvor grensene går. Og så er det personvern, dataeierskap, sikkerhet. Hvem bestemmer hva AI får se? Hvordan validerer vi at det den kommer frem til, faktisk stemmer?

Hva nå?

Det store spørsmålet er kanskje ikke hvor avansert Gemini 3 Pro er, men hvordan den faktisk fungerer ute i den virkelige verden. Får vi nye arbeidsflyter som virkelig hjelper oss, eller blir det bare et nytt lag med teknologi å forholde seg til? Kanskje er det mest spennende at dokumenter og videoer ikke lenger bare er dødt arkivmateriale, men levende kilder til innsikt. Men – og det er et stort men – hvem har kontrollen? Hvordan sikrer vi at teknologien brukes riktig?

Det er fortsatt mer spørsmål enn svar. Kanskje er det akkurat slik det skal være.

Del artikkelen (3 tjenester)

Vurder denne artikkelen