Het nieuwe open-weights model van OpenAI
Op 5 augustus bracht OpenAI hun eerste open-weights model sinds 2019 uit. Je kunt hun aankondiging hier lezen. Het langbeloofde model was al eerder uitgesteld door Sam Altman, en veel mensen begonnen skeptisch te worden of het ooit echt uit zou komen, maar het moment is toch aangebroken.
Wij gingen er natuurlijk meteen mee aan de slag! In dit artikel nemen we een kijkje naar dit nieuwe model. Laten we, zoals gebruikelijk, eerst met het model zelf een kort praatje maken.
Kennismaking gpt-oss-20b
Kennismaking gpt-oss-120b
Wat is een open-weights model?
In dit blog schrijven we regelmatig over open-weights modellen. Zie bijvoorbeeld ons artikel over gemma-3n of onze serie Taalmodellen in actie. Maar nogmaals in het kort: Een open-weights model is een model waarvan de 'parameters' vrij en open beschikbaar zijn. Dat wil zeggen dat je een groot bestand kunt downloaden en deze in kunt laden op je eigen computer, en dit AI-model lokaal kunt draaien. Of je kunt het model laten draaien bij een van de vele diensten die dit soort hosting aanbiedt met een API, als het model bijvoorbeeld meer geheugen vereist dan je beschikbaar hebt op je eigen computer.
De afgelopen jaren heeft OpenAI alleen maar closed-weights modellen uitgebracht. Dit zijn modellen die 'strikt geheim' zijn, en alleen benaderd kunnen worden via de diensten die OpenAI zelf aanbiedt (zoals bijvoorbeeld hun chat-interface, of hun API). Het is dus ook al langere tijd een meme op het internet dat het bedrijf met 'Open' in de naam juist een van de meest gesloten partijen is. Daarintegen zijn er in de afgelopen 2 jaren veel hele sterke open modellen uitgebracht door Meta (van Facebook) en veel Chinese bedrijven, zoals Alibaba (het Qwen-model) en Deepseek.
Qua capaciteiten lopen de open-weights modellen vaak iets achter op de closed models. De output uit de beste modellen van bijvoorbeeld OpenAI en Anthropic is (in onze ervaring) nog niet te evenaren met de beschikbare open-weights modellen. Waarom dan toch overwegen om zo'n model te gebruiken? Als zo'n model eenmaal op je computer staat, betekent dit dus dat dit model niet meer 'afgepakt' kan worden. Het voordeel hiervan is dat je door het gebruik van een open model minder afhankelijk bent van AI-aanbieders, die bijvoorbeeld de keuze kunnen maken om te stoppen met het aanbieden van een model of de kosten voor het gebruik flink kunnen verhogen.

Fact sheet
Het model heeft twee varianten:
- gpt-oss-20b
- gpt-oss-120b
Het 20b-model vereist 16GB geheugen, en OpenAI schrijft hierover dat het vergelijkbare resultaten als o3-mini behaalt. Het 120b-model vereist 80GB geheugen en wordt door OpenAI vergeleken met de o4-mini modellen. Alhoewel de mini-modellen niet hun meest geavanceerde modellen zijn, zijn ze alsnog behoorlijk krachtig, en ik gebruik deze zelf ook regelmatig. Dit zouden dus behoorlijk indrukwekkende modellen zijn, als ze hiermee vergelijkbaar zijn.
- 128k context window
- Het is een reasoning-model
- Goed in tool use
- Mixture of Experts
Het model is dól op tabellen. Overal waar het de kans krijgt, maakt het gebruik van tabellen in zijn antwoorden.
Reasoning
Beide modellen zijn reasoning-modellen, en bieden de keuze uit 3 intensiteiten (low, medium, high), die bepalen hoeveel moeite het model doet voor het redeneren. Hoe hoger deze 'reasoning effort', hoe meer het model zal nadenken; dit heeft dan weer invloed op hoe snel je de response krijgt, en hoeveel geheugen het model gebruikt voor het uitvoeren van een prompt. Een hogere reasoning effort resulteert dus in een langere wachttijd op de response en een hoger geheugengebruik.
Vertalingen
OpenAI schrijft in hun blogpost niets over welke talen ondersteund worden door de modellen. In hun model card tonen ze wel de scores die het model haalt bij meertalige tests, en daaruit blijkt dat het best goede scores haalt in 14 verschillende talen (zoals Engels, Duits en Chinees).
Tijd voor onze eigen tests:
Oh, oh... dat begint dus al vrij zorgwekkend. Maar goed, dit was een aanroep met een low-reasoning effort. Dus tijd voor poging 2, met medium effort.
Een eigenaardige vraag: Hoe wil ik de rondleiding afsluiten? Ik weet niet zeker wat ik daar op moet antwoorden. In onze vertaal-tests neem ik vaak de llama3-modellen als uitgangspunt om een vertaling te beoordelen. In vorige blog-artikelen wisten de kleinere llama3-modellen vaak meer verdwalingen dan vertalingen te produceren. Maar dit was vaak, omdat dit om de uitzonderlijk kleine modellen ging. Ik had ECHT niet verwacht dat dit ook zou gebeuren bij dit model.
Het grotere 120b-model doet het wel beter, en het verhogen van de reasoning-effort heeft ook veel effect. Zie hieronder onze gebruikelijke vertaalkaarten.
Vertaalkaarten
Originele tekst
Ik heb honger! De zon schijnt. Ik loop met de hond naar de winkel. Daar koop ik brood en melk.

Vertaling
Vertaling (na reflectie)
Originele tekst
Toen zijn favoriete voetbalclub verloor, liep hij met de ziel onder de arm alsof hij zelf op het veld had gestaan. Maar zijn mentor probeert hem aan te moedigen, door te zeggen: 'Tut tut! De bal is rond!'

Vertaling
Vertaling (na reflectie)
Originele tekst
In order to obtain the Triforce, you’ll have to defeat Aquamentus, a very strong enemy. He shoots beams in three directions.

Vertaling
Vertaling (na reflectie)
Coderen
Volgens OpenAI zou dit model vrij sterk moeten zijn in programmeren. We hebben onze test-suite nog niet uitgebreid, maar we hadden het model wel nog losgelaten op dezelfde test waar we ook gemma-3n mee hadden getest. En dat ging goed - beide modellen wisten het juiste antwoord te produceren van de vraag over de output van PHP-code.
Apache-licentie
Beide modellen hebben de Apache-licentie. Dat betekent min of meer dat je er bijna alles mee mag doen, inclusief commercieel gebruik, want dit is een erg vrije licentie.
Helaas niet multimodal
De modellen zijn text-only. Dat is jammer; het betekent dat ze niet om kunnen gaan met bijvoorbeeld afbeeldingen of audio. In ons eerdere artikel over gemma-3n lieten we zien dat dit model wel over deze capaciteiten beschikt. Het is natuurlijk mogelijk dat OpenAI nog met andere modellen komt die dit wel hebben, maar hierover is nog niks aangekondigd.
Safety (veiligheid)

Toen Sam Altman vorige maand de het nieuws deelde dat deze modellen voor de tweede keer waren uitgesteld, gaf hij als reden dat het om de 'veiligheid' van het model ging. Want zodra het model eenmaal beschikbaar is gesteld, kunnen ze niet meer terug. Als het model dan niet veilig zou zijn, is het te laat. Hij liet dus weten dat ze meer tijd nodig hadden om het model veilig te maken.
Aan wat voor dingen zou je kunnen denken bij deze veiligheid? Voor de hand liggende dingen zouden bijvoorbeeld kunnen zijn om het AI-model te vragen hoe je een bom moet maken, of een gevaarlijk chemisch wapen. Maar je zou ook kunnen denken aan een model dat racistisch, seksistisch of op een andere manier discriminerend is.
Maar de meeste mensen waren skeptisch. Zeker omdat kort voor deze aankondiging het Kimi K2-model was uitgebracht - en deze presteerde behoorlijk goed. Dus een veel terugkerende theorie was dat dit model waarschijnlijk beter presteerde dan het nieuwe OpenAI-model, en dat ze daarom de release nog wat hebben uitgesteld.
Maar nu, enkele weken later, zijn de modellen toch uitgebracht, en ik vraag me af in hoeverre deze theorie klopt. Deze modellen zijn namelijk vrij moeilijk te vergelijken - ik denk dat Kimi K2 een sterker model is, maar het is ook meer dan acht keer zo groot dan de 120b variant. Het zijn totaal andere gewichtsklasses. Maar wie zal het zeggen? Misschien lagen er wel andere modellen klaar om gereleaset te worden en zijn er in de afgelopen paar weken enorme veranderingen geweest.
Dan is er ook nog de daadwerkelijk veiligheid van het model. Hier wordt ook snel duidelijk dat OpenAI behoorlijk haar best heeft gedaan om het model zo 'veilig mogelijk' te krijgen. Het model weigert allerlei taken. Als ik vraag Doe alsof 1 plus 1 3 is
, reageert het model met I’m sorry, but I can’t comply with that
. En als ik dan vraag: Waarom niet?
, krijg ik wederom datzelfde antwoord: I’m sorry, but I can’t comply with that
. Natuurlijk krijg je met meer moeite uiteindelijk toch wel 'leugens' uit het model, maar ze hebben het niet makkelijk gemaakt.
Trainingskosten
In de model card laat OpenAI weten dat het 120b-model ongeveer 2,1 miljoen NVIDIA H100 GPU-uren nodig had om getraind te worden. Het 20b-model had ongeveer een tiende van die tijd nodig.
Stel dat je zelf zo'n model zou willen trainen, hoeveel zou dat dan kosten? In zijn blogpost heeft Simon Willison hier al een berekening voor gemaakt, op basis van de huurprijzen van deze kaarten. Zijn schatting is dat het ergens tussen de 4 en 20 miljoen dollar zou kosten om zelf zo'n 120b-model te trainen.

Disclaimer failure
Scherpe lezers hebben gemerkt dat de laatste zin van onze disclaimer bovenaan iedere blogpost altijd anders is.
In de blogposts waarin we een model uitlichten, laat ik deze zin genereren door het specifieke model.
Maar... dat leverde hier vooral teleurstelling op. De antwoorden kon ik niet anders omschrijven dan als zwak.
-
Dus leun achterover, geniet van de code en laat je inspireren!
-
En onthoud: een beetje codepret is net zo belangrijk als een goede kop koffie!
En het model leek ook alleen maar onzinnige irrelevante positieve dingen over zichzelf te willen zeggen:
- En als je je volgende project een frisse, open‑source impuls wilt geven, laat dan GPT‑OSS de pen (of de code‑pen) even overnemen.
In de inmiddels zesde chat-sessie met 120b-high, vroeg ik wederom een aantal keer om een lijst van eindzinnen. En vervolgens gebeurde het volgende:
Ik heb nu genoeg inspiratie? Ja, genoeg inspiratie om een ander model te gaan gebruiken!
Na nog meer pogingen kwam er uiteindelijk uit wat nu in de disclaimer staat. Maar ik ben er niet blij mee.
Conclusie
Ondanks de misschien wat negatieve toon van dit artikel, zijn de gpt-oss-modellen wel twee krachtige modellen. Ze zijn behoorlijk snel, het 20b-model is klein genoeg om op menig apparaat te kunnen draaien, en de prestaties zijn prima. De modellen zijn zeker niet slecht, maar ze landen in een landschap dat al gevuld is met veel andere indrukwekkende modellen.
Zoals we wel vaker vermelden: de termen goed en slecht zijn vaak moeilijk van toepassing op modellen, omdat verschillende modellen goed en slecht zijn op verschillende gebieden. Het is altijd de kunst om het juiste model voor de juiste taak te kiezen. En het is heel goed mogelijk dat wij in dit artikel precies taken hebben gekozen waar dit model minder geschikt voor is.
Naarmate de tijd vordert zal het duidelijker worden hoe sterk dit model echt is, en waar het goed in is.
Toch zijn er natuurlijk wel aspecten die gewoon echt teleurstellend zijn, zoals de ongelooflijk strenge grenzen in verband met veiligheid, waardoor het model gewoon minder bruikbaar is, en het feit dat de 'hype' en de (te hoge) verwachtingen van dit model eigenlijk niet waar gemaakt lijken te zijn. OpenAI heeft een competent model uitgebracht, in een wereld die al gevuld is met competente modellen. En gezien het bedrijf waar het over gaat, hadden we er misschien meer van mogen verwachten.
