
- Gemini 3 Flash finner ofte opp svar i stedet for å innrømme når den ikke vet det.
- Problemet oppstår med faktabaserte spørsmål eller avanserte spørsmål.
- Men den viser seg likevel å være den mest nøyaktige og kapable AI-modellen.
Gemini 3 Flash er rask og smart. Men hvis du spør den om noe den egentlig ikke vet – noe obskurt eller vanskelig eller utenfor området den er trent opp på – vil den nesten alltid prøve å bløffe, ifølge en fersk evaluering fra den uavhengige testgruppen Artificial Analysis.
Det ser ut til at Gemini 3 Flash nådde 91 % på «hallusinasjonsrate»-delen av AA-Omniscience-referanseindeksen. Det betyr at når den ikke hadde svaret, ga den likevel et svar, nesten hele tiden, og da et som var helt fiktivt.
AI-chatboter som dikter opp ting har vært et problem siden de først dukket opp. Å vite når man skal stoppe og si «jeg vet ikke» er like viktig som å vite hvordan man skal svare i utgangspunktet. For øyeblikket gjør ikke Google Gemini 3 Flash AI det så bra. Det er det testen er til for: å se om en modell kan skille faktisk kunnskap fra en gjetning.
For at tallet ikke skal distrahere fra virkeligheten, bør det bemerkes at Gemini sin høye hallusinasjonsrate ikke betyr at 91 % av de totale svarene er falske. I stedet betyr det at i situasjoner der det riktige svaret ville være «Jeg vet ikke», ble det fabrikert et svar i 91 % av tilfellene. Det er en subtil, men viktig forskjell, men en som har implikasjoner for den virkelige verden, spesielt ettersom Gemini er integrert i flere produkter som Google Søk.
Ok, it’s not only me. Gemini 3 Flash has a 91% hallucination rate on the Artificial Analysis Omniscience Hallucination Rate benchmark!?Can you actually use this for anything serious?I wonder if the reason Anthropic models are so good at coding is that they hallucinate much… https://t.co/b3CZbX9pHw pic.twitter.com/uZnF8KKZD4December 18, 2025
Dette resultatet forringer ikke kraften og nytten til Gemini 3. Modellen er fortsatt den som yter best i generelle tester og rangerer på nivå med, eller til og med foran, de nyeste versjonene av ChatGPT og Claude. Den er bare litt for selvsikker når den burde være beskjeden.
Den overdrevne selvtilliten i svarene dukker også opp hos Geminis rivaler. Det som gjør at Geminis tall skiller seg ut, er hvor ofte det skjer i disse usikkerhetsscenariene, der det rett og slett ikke finnes noe riktig svar i treningsdataene eller noen definitiv offentlig kilde å peke på.
Ærlighet om hallusinasjoner
En del av problemet er rett og slett at generative AI-modeller i stor grad er verktøy for ordprediksjon, og å forutsi et nytt ord er ikke det samme som å evaluere sannhet. Og det betyr at standardoppførselen er å komme opp med et nytt ord, selv når det å si «Jeg vet ikke» ville være mer ærlig.
OpenAI har begynt å ta tak i dette og få modellene sine til å gjenkjenne hva de ikke vet og si det så tydelig. Det er vanskelig å trene opp, fordi belønningsmodeller vanligvis ikke verdsetter et blankt svar fremfor et sikkert (men feil) svar. Likevel har OpenAI gjort det til et mål for utviklingen av fremtidige modeller.
Og Gemini siterer vanligvis kilder når det kan. Men selv da stopper det ikke alltid opp når det burde. Det ville ikke spilt så stor rolle hvis Gemini bare var en forskningsmodell, men etter hvert som Gemini blir stemmen bak mange Google-funksjoner, kan det å ta feil med selvtillit påvirke ganske mye.
Det er også et designvalg her. Mange brukere forventer at AI-assistenten deres skal svare raskt og smidig. Å si «Jeg er ikke sikker» eller «La meg sjekke det» kan føles klønete i en chatbot-kontekst. Men det er sannsynligvis bedre enn å bli villedet. Generativ AI er fortsatt ikke alltid pålitelig, men det er alltid en god idé å dobbeltsjekke ethvert AI-svar.


