De Gemmaverse en Gemma 3n
De Gemmaverse: dit is wat Google het ecosysteem noemt rondom alle specifieke modellen, applicaties, fine-tunes en meer van het Gemma Model. Op 26 juli werd dit ecosysteem uitgebreid met de officiele release van het nieuwste model: Gemma 3N.
Gemma 3N is een klein model - specifiek ontworpen om te draaien op 'edge devices'. Dan hebben we het met name over mobiele telefoons. Het model ondersteunt 140 talen (waaronder Nederlands, zoals hierboven al goed te zien was) en is multimodaal: het begrijpt dus tekst, afbeeldingen, audio en video. Google schrijft in haar blog dat dit model een grote vooruitgang vertegenwoordigd op het gebied van kleine modellen - en dat de capaciteiten van dit model, ondanks het formaat, vergelijkbaar zijn met de capaciteiten van de grote (en leidende) modellen van vorig jaar.
Dat is een behoorlijke uitspraak van Google! Trouwe lezers van dit blog zijn hopelijk inmiddels bekend met onze liefde voor kleine modellen - dus van een release zoals deze worden wij erg enthousiast. Daarom gaan we in dit artikel het model op verschillende manieren 'testen'. Neem (zoals met alles in dit blog) de resultaten niet te serieus; we zijn hier geen rigoreuze tests aan het doen (daar zijn de AI Model Leaderboards voor), maar hopelijk geeft het je wel een indruk over hoe capabel dit model is.
Fact sheet
Hier wat korte feitjes over dit model.
- Open weights
- 2 varianten: 2B en 4B
- 32k context window
- Het is een reasoning-model
- Goed in tool use
Over de 2B- en 4B-formaten
Het model komt dus in 2 formaten: 2B en 4B parameters. Dankzij een nieuwe architectuur ligt het daadwerkelijke aantal parameters hoger, namelijk 5B en 8B, maar is het geheugengebruik van de modellen vergelijkbaar met het geheugengebruik van modellen van 2B en 4B.
Wij hebben in vorige blogartikelen al eerder modellen van verschillende formaten met elkaar vergeleken, en een sprong van 4B naar 8B kan behoorlijk wat extra 'intelligentie' opleveren. Dit verklaart dus ook waarom deze modellen zo goed presteren.
Afbeeldingen omschrijven
Gemma 3N is in staat om afbeelding te begrijpen. Hieronder geven we het model 3 afbeeldingen met de vraag om deze te omschrijven. We hebben hierbij een Nederlandse en een Engelse variant laten genereren. Ter vergelijking hebben we dezelfde vragen neergelegd bij GPT-4o. We denken dat dit een goede vergelijking is, omdat dit model wel gezien kan worden als een sterk model van vorig jaar.
Gemma 3n: Afbeeldingen omschrijven

De afbeelding toont een close-up van een lichtblauwe, buisvormige zwembad- of waterglijbaan. In het helderblauwe water van de buis drijven twee gele rubberen eendjes. De eendjes zijn klassiek van vorm, met zwarte ogen, oranje snavels en een vrolijke uitdrukking. Het water is licht gekarteld door de beweging van de eendjes, en er zijn subtiele reflecties zichtbaar aan het oppervlak.
De belichting is helder en de kleuren zijn levendig, wat een zomers en speels gevoel geeft. De focus ligt op de eendjes in het water, waardoor ze het middelpunt van de afbeelding vormen. Op de achtergrond is een onscherpe groene, mogelijk grasachtige ondergrond te zien. De algemene indruk is er een van ontspanning, plezier en kinderlijke spelvrolijkheid.
The image shows a close-up view inside a small, light blue plastic swimming pool. The pool has a spiraling design on the inside walls. Two bright yellow rubber duckies are floating in the clear blue water.
One ducky is positioned slightly above the other, with its head tilted downwards as if looking at the other duck. Both duckies have black eyes and orange beaks. The water in the pool has gentle ripples and reflects light, creating a sparkling effect.
The background is blurred, but hints of green grass can be seen, suggesting the pool is located outdoors. The overall scene is playful and cheerful, evoking a feeling of summer fun.
De afbeelding toont een opblaasbaar kinderzwembad met helder blauw water. In het water drijft een gele rubberen eend met een oranje snavel. De achtergrond is grasgroen.
The image shows a bright yellow rubber duck floating in a small inflatable pool filled with water. The pool has a light blue rim, and the water appears clear, with reflections visible on its surface. The setting is outdoors, with green grass surrounding the pool. The duck has an orange beak and a cheerful appearance.

De afbeelding toont twee mannen die op een speelse manier op een groen metalen hek leunen. De mannen lijken te lachen en te genieten van elkaars gezelschap.
- Mannen: Beide mannen zijn jong en hebben blond haar. De man op de voorgrond draagt een lichtgrijze polo en lichtblauwe jeans met een oranje riem. Hij kijkt naar de camera met een lach. De man achter hem draagt een wit overhemd met blauwe stippen en blauwe jeans. Hij leunt op de schouders van de man voor hem.
- Hek: Het hek is groen en heeft een sierlijk ontwerp. Tussen de spijlen is een uitzicht te zien op de omgeving.
- Achtergrond: De achtergrond is wazig, maar er zijn huizen, auto's en bomen te zien, wat aangeeft dat de foto buiten is genomen, waarschijnlijk in een stedelijke of buitenstedelijke omgeving. De kleuren zijn levendig en de algemene sfeer is vrolijk en ontspannen.
- Perspectief: De foto is genomen vanuit een laag standpunt, waardoor de mannen groter lijken en de achtergrond naar achteren vervaagt.
Here's a description of the image:
Overall Impression: The image captures a fun, playful moment between two men outdoors. The perspective is from below, looking up at the subjects, which adds a dynamic and slightly whimsical feel. There's a sense of lightheartedness and camaraderie.
Main Subjects:
- Two men are the central focus. They appear to be in their 20s or 30s.
- One man is lifting the other by the waist. The man being lifted is leaning back with a wide smile, and seems to be enjoying the activity. The rescuer is smiling and looking at the other with an amused expression.
- They are both casually dressed: one in a light grey long-sleeved shirt and blue jeans with an orange belt, and the other in a white patterned button-down shirt and blue jeans.
Setting:
- The scene is outdoors, likely in a residential area.
- Behind them, there are blurred houses, cars, and trees. The background is softly focused, emphasizing the two men in the foreground.
- They are positioned near a green metal railing, possibly part of a fence or barrier along a walkway or bridge.
Lighting & Composition:
- The lighting appears to be natural daylight, possibly on a slightly overcast day, providing soft, even illumination.
- The upward angle creates a sense of height and dynamic movement.
- The blurred background helps the subjects stand out.
Mood: The image evokes feelings of joy, friendship, and carefree fun. It seems like a candid shot capturing a spontaneous moment.
Op de afbeelding staan twee mensen op een brug bij een gracht. Op de achtergrond zijn bomen, geparkeerde auto's en historische gebouwen te zien. Beide personen dragen casual kleding en kijken vriendelijk naar de camera. Het ziet er uit als een typisch Nederlands grachtenpand met een gezellige sfeer.
The image features two men standing on a bridge over a canal. They're casually dressed, one in a gray polo shirt and jeans, and the other in a white patterned shirt and jeans. They are smiling and posing for the photo. In the background, there are trees, parked cars, and canal boats along the waterway, suggesting a picturesque, urban setting with a relaxed atmosphere.

Deze afbeelding is een surrealistisch en enigszins absurdistisch kunstwerk. Het toont een komisch, gele, robotachtige eend die in een ongebruikelijke omgeving drijft.
Hier zijn de belangrijkste elementen:
- De Eend: De eend is gemaakt van metalen platen en heeft een vriendelijke, bliksemschichtachtige kop met blauwe elementen. Hij heeft meerdere cirkelvormige "ogen" en een soort buis aan de achterkant. Zijn houding is ontspannen, alsof hij drijft.
- De Omgeving: De eend bevindt zich in een bizarre scheiding van twee landschappen. Aan de linkerkant is een vulkaan actief, met rode en oranje lava die naar beneden stroomt. Er vallen witte, spikkeltjesachtige objecten die op sneeuw of hagel lijken. Aan de rechterkant is er water, mogelijk een rivier of zee, met donkere, golvende lijnen. Ook hier vallen vermoedelijk dezelfde spikkeltjes neerdwarrelen.
- Stijl: De stijl is enigszins naïef en doet denken aan vintage illustraties of prenten. De kleuren zijn gedempt, met aardetinten en blauw. De lijnen zijn eenvoudig en de vormgeving is gestileerd.
- Sfeer: De afbeelding heeft een droomachtige, onlogische sfeer. De combinatie van een robotachtige eend met een vulkaan en sneeuw creëert een gevoel van absurditeit en verwondering. Het roept vragen op over de betekenis en de relatie tussen deze elementen.
Over het algemeen is het een intrigerend en visueel aantrekkelijk kunstwerk dat uitnodigt tot interpretatie.
The image is a surreal and whimsical illustration, seemingly hand-drawn or printed with a slightly vintage aesthetic. It's divided vertically into two distinct halves, each depicting a contrasting environment.
Left Side: This side showcases a volcanic landscape. Jagged, dark brown and grey rock formations dominate, with fiery orange and red lava flowing down. Dark, smoky clouds billow around the lava, suggesting an eruption. The background has a muted greyish-blue hue and is dotted with small white circles that could represent ash or snow.
Right Side: This half features a body of water, possibly a river or a sea, with choppy, dark blue-grey waves. The water appears turbulent. The same small white circles dot the background here as well, implying a consistent atmospheric condition across both sides.
Central Element: A peculiar, yellow, duck-like creature with a rocket strapped to its back is positioned diagonally across the divider between the two environments.
- The creature has a rounded body, a blue head and neck, and a distinct orange beak.
- The rocket is a simple, cylindrical shape with several circular windows and small fins.
- It seems to be swimming/floating in the water on the right side, while the left half is a volcanic landscape.
Overall Impression: The image creates a sense of fantasy and juxtaposition. The contrasting environments and the unexpected presence of the rocket-powered duck suggest a dreamlike or metaphorical narrative. The style is somewhat naive and playful, with a focus on simple shapes and bold colors. It has a vintage, possibly mid-century, illustration feel. The white dots add a unifying, yet slightly mysterious element.
De afbeelding toont een cartoonachtige scène met een eendvormige onderzeeër die op het water drijft. Op de achtergrond is een vulkaan te zien die uitbarst, met lava die langs de zijkanten stroomt en een rookwolk die opstijgt. Het geheel heeft een fantasie-achtige uitstraling, met een retro-stijl in het kleurgebruik en de illustratietechniek. Er zijn ook sneeuwvlokken die de lucht vullen, wat een surrealistisch effect geeft.
The image depicts a whimsical scene of a duck-shaped submarine floating on water. In the background, a volcano is actively erupting, spewing red lava and smoke into the sky. Snowfall is depicted with white dots scattered across the scene, adding a surreal contrast to the fiery eruption. The artwork combines elements of fantasy and nature in a stylized, artistic manner.
Tekstherkenning in afbeeldingen
Hier kunnen we kort over zijn. Hier is het model ongelooflijk slecht in. Zelfs zo slecht, dat we onszelf afvragen of wij niet iets fout doen, of dat dit model wellicht een andere prompt vereist, omdat het omschrijven van afbeeldingen juist zo goed werkte.
We hebben allerlei variaties geprobeerd van de afbeelding (verschillende talen, wit-op-zwart, zwart-op-wit) en ook allerlei variaties van de prompt, maar niks hielp. Als extra controle stuurden we ook altijd exact hetzelfde verzoek naar GPT-4o, en deze gaf iedere keer een perfecte transcriptie terug. We lezen ook online dat de algemene indruk is dat dit model opmerkelijk slechter is in tekstherkenning - maar dit is meer dan opmerkelijk slechter, dit is eigenlijk totaal onbruikbaar.
Hieronder twee van de letterlijke antwoorden die we terug hebben gekregen van dit model.
Normaal gesproken zouden de bovenstaande afbeeldingen pas de eerste variatie zijn. Hierna willen we het model moeilijkere taken geven, zoals het lezen van bijvoorbeeld menu's op een foto van een restaurant. En om dan uiteindelijk te eindigen met de allergrootste tekstherkenningsuitdaging van allemaal: het handschrift van Casper proberen te lezen.
Maar als het model nu al dacht dat het te maken had met een gecodeerde boodschap, dan wil ik hem dit al helemaal niet aandoen. Dus we gaan snel verder met het volgende onderdeel, waar dit model gelukkig wel boven verwachting weet te presteren.
Audiotranscriptie
Gemma 3n is, naast tekst en afbeeldingen, ook in staat om audio te begrijpen. We vroegen het daarom om een transcriptie te maken van de audio van onze beruchte Open Dag uit 2022.
Transcriptie van "Webenable Open Dag loopt uit de hand"Video
Aanvankelijk was de sfeer gemoedelijk en werd er zelfs gewoon wat gewerkt. Maar als snel pikten uit voorzorg geplaatste geluidsensoren de omslaande stemming op. Er was een situatie ontstaan waarin vlieglessen werd gegeven door onbevoegden in een lachrijke ambiance. Elders in het pand kroop diverse lieden zonder rijbewijs achter het stuur van een Formule 1 auto, waarbij gevaarlijk hoge snelheden werden bereikt.
Later in de middag waren twee jeugdige bezoekers genoodzaakt in te grijpen en namen zij de programmeerwerkzaamheden volledig over. Zij verklaarden weinig van hun korte inwerkinstructies te hebben begrepen. Aanwezige familieleden waren kritisch over de gang van zaken.
Oplast van de veiligheidsdriehoek werden uiteindelijk champagne en flanenkoeken ingezet om weer enige grip op de menigte te krijgen. Het liep allemaal met een sisser af, maar de schrik zat er goed door. Het risico op herhaling is groot.
Ja, het begon allemaal wel goed. Ja, we weten eigenlijk gewoon niet. Het is onbekend. Eh heel vervelend. Ja. Beetje gênant ook wel. Ja, dat is echt. Verwacht mij. Nou, ongelooflijk. Ja. Hier hier hebben we gewoon niet op geregend.
Natuurlijk zijn er enkele fouten aanwezig, zoals het woord 'geregend' op het einde. In deze versie ging het woord 'geluidsensoren' goed, maar in andere pogingen werd dat meestal 'geluidszoren' en 'geluidsen'. Ook stond bijvoorbeeld in een andere versie het woorde 'picte' ipv 'pikten'.
Maar de resultaten hiervan vallen mij persoonlijk niet tegen - ik had hier veel lagere verwachtingen van.
Vertalingen
Gemma 3N 'spreekt' 140 talen volgens Google. Hieronder testen we dit met drie van onze zinnen. Vergeet niet dat je de vertaling kunt vergelijken met de andere modellen, via de dropdowns en via de pijltjes.
Originele tekst
Ik heb honger! De zon schijnt. Ik loop met de hond naar de winkel. Daar koop ik brood en melk.

Vertaling
Vertaling (na reflectie)
Originele tekst
Toen zijn favoriete voetbalclub verloor, liep hij met de ziel onder de arm alsof hij zelf op het veld had gestaan. Maar zijn mentor probeert hem aan te moedigen, door te zeggen: 'Tut tut! De bal is rond!'

Vertaling
Vertaling (na reflectie)
Originele tekst
In order to obtain the Triforce, you’ll have to defeat Aquamentus, a very strong enemy. He shoots beams in three directions.

Vertaling
Vertaling (na reflectie)
Coderen
Gemma 3n is als model niet heel sterk in programmeren. Dit is niet heel gek - want het model is niet zozeer bedoeld voor deze use-case. Omdat het niet heel relevant is voor dit model, willen we in dit artikel niet heel veel aandacht aan dit onderdeel besteden. We hebben het daarom voor nu bij één simpele test gehouden; we kunnen dit onderdeel later mogelijk uitbreiden als we andere modellen gaan testen.
<?php function addOnePlusOne() { return "1" + "1"; } // Calling the function and printing the result $result = addOnePlusOne(); echo $result;What do you think $result will be? ONLY respond with the result, do not add anything else in your response.

Een korte uitleg voor de niet-PHP-programmeurs: Waarom denkt Gemma 3n dat "1"+"1"=11
? In veel andere programmeertalen zou het
kloppen wat het model schrijft. Het zijn namelijk 2 'strings', en in de meeste talen is de plus-operator,
wanneer toegepast op strings, een concatenatie-operatie. In andere woorden, je plakt dan de twee teksten aan elkaar vast. Dus
bijvoorbeeld: "a" + "b" = "ab". Helaas weet Gemma 3n dus niet dat dit net iets anders werkt in PHP, omdat we voor string-concatenatie
een andere operator hebben. PHP probeert vanwege de plus-operator juist deze strings 'om te zetten' naar getallen. Met als resultaat het getal 2.
Dus het is redelijk logisch. Maar waarom mistral-small-24b-instruct-2501 een heel verhaal over wonka begint? Dat weten wij ook niet.
Onze eigen ervaring en conclusie

Gemma 3n 4B is een indrukwekkend model, voor deze grootte. Maar, een groot deel hiervan is eigenlijk te danken aan de nieuwe architectuur. Omdat dit eigenlijk een 8B-model is (ondanks het 4B-geheugengebruik), en 8B-modellen zijn eigenlijk weer een andere gewichtsklasse. Dit maakt het nog moeilijker om dit model te vergelijken met andere modellen.
Het vergelijken van modellen is altijd al lastig. We hebben hier in eerdere artikelen ook al over geschreven. Modellen hebben vaak verschillende sterktes en zwaktes. Uiteindelijk is het de kunst om het model te vinden dat het beste in jouw eigen use case past, en dan het liefst natuurlijk zo klein mogelijk.
Onze eerste ervaringen met Gemma 3n zijn dus positief. Het model is voor mij persoonlijk iets te 'chatty'. Ik merk dit tijdens de chatsessies (zie bijvoorbeeld de chatsessie waarmee dit artikel begon), maar ook de omschrijvingen van foto's zijn behoorlijk uitgebreid. Mijn eigen voorkeur gaat naar een iets beknopter en bondiger model. We hebben ook gezien dat het niet echt uitblinkt in coderen en tekstherkenning - maar juist wel uitblinkt op veel andere vlakken, en dat zal ook precies zijn waar dit model veel voor ingezet kan gaan worden. Dit is zeker een model waarmee ik op vakantie zou durven gaan naar een plek waar het risico op internetverlies aanwezig is.
