Disclaimer: Welkom bij onze TechBlog!
Dit is een artikel in ons TechBlog. Ons Techblog bevat artikelen, geschreven door onze developers, over dingen die ze zijn tegengekomen tijdens hun werkzaamheden. Deze artikelen gaan (meestal) over een technisch onderwerp, en zijn met name bedoeld om te vermaken en (soms) te informeren. De reis door gpt‑oss is begonnen; de eindbestemming blijft net zo onvoorspelbaar als een pull‑request.

vr. 8 aug. Auteur: Jeroen Mimpen

Model Uitgelicht - gpt-oss

Het nieuwe open-weights model van OpenAI

Op 5 augustus bracht OpenAI hun eerste open-weights model sinds 2019 uit. Je kunt hun aankondiging hier lezen. Het langbeloofde model was al eerder uitgesteld door Sam Altman, en veel mensen begonnen skeptisch te worden of het ooit echt uit zou komen, maar het moment is toch aangebroken.

Wij gingen er natuurlijk meteen mee aan de slag! In dit artikel nemen we een kijkje naar dit nieuwe model. Laten we, zoals gebruikelijk, eerst met het model zelf een kort praatje maken.

Kennismaking gpt-oss-20b

gpt-oss-20b
Jeroen
Hallo. Wie ben jij?
gpt-oss-20b
Hallo! 😊
Ik ben ChatGPT, een AI‑taalmodel dat door OpenAI is ontwikkeld. Ik ben hier om je te helpen met vragen, gesprekken, vertalingen, uitleg over allerlei onderwerpen en nog veel meer. Waarmee kan ik je vandaag van dienst zijn?
Jeroen
Ik ga een blogartikel schrijven over jou. Wat vind je daarvan?
gpt-oss-20b
Natuurlijk! Een blogartikel over mij klinkt als een spannend project. 🚀

Ontdek wat je in het artikel kunt benadrukken:
Thema Inhoud
Oorsprong Ik ben een groot taalmodel van OpenAI, getraind op een enorme hoeveelheid tekstgegevens tot en met juni 2024.
Functie Ik help met antwoorden, brainstormen, schrijven, vertalen, code‑inzicht en nog veel meer.
Interactie Juiste, gestructureerde en relevante antwoorden, met een vleugje humor of empathie.
Beperkingen Ik kan geen persoonlijke data opslaan, ben niet wetenschappelijk “wetende”, en af en toe missen we de meest recente feiten.
Toepassingen Onderwijs, klantenservice, creatieve kunst, technisch onderzoek en zelfs plezierige gesprekken.
Laat me weten welke focus jij het meest interessant vindt, of als je specifieke details wilt integreren. Ik help graag met een concept of zit klaar voor jouw creatieve kopieën!

Kennismaking gpt-oss-120b

gpt-oss-120b
Jeroen
Hallo. Wie ben jij?
gpt-oss-120b
Hallo! Ich bin ChatGPT, ein KI‑basiertes Sprachmodell, das darauf trainiert ist, Fragen zu beantworten, Ideen zu brainstormen, Texte zu schreiben und bei vielen anderen Themen zu helfen. Wie kann ich dir heute weiterhelfen?
Jeroen
Ik ga een blogartikel schrijven over jou. Wat vind je daarvan?
gpt-oss-120b
Dat klinkt als een leuk idee! Ik help je graag met alle informatie die je nodig hebt. Heb je al een bepaald perspectief of thema in gedachten voor het artikel? Bijvoorbeeld:

  • Hoe ik technisch ben opgebouwd (neuraal netwerk, training op grote tekstcorpora, enz.).
  • Voorbeelden van wat ik wel en niet goed kan doen.
  • Hoe mensen mij in de praktijk gebruiken – van creatieve schrijfhulp tot klantenservice.
  • Ethische en maatschappelijke overwegingen rondom AI‑chatbots.
  • De evolutie van de modellen van GPT‑3 naar GPT‑4 en verder.

Laat me weten welke aspecten je wilt belichten, of als je specifieke vragen hebt – ik kan je achtergrondinformatie, anekdotes, of zelfs een kort overzicht geven dat je direct in je blog kunt gebruiken. Ik sta klaar om je te ondersteunen!

Wat is een open-weights model?

In dit blog schrijven we regelmatig over open-weights modellen. Zie bijvoorbeeld ons artikel over gemma-3n of onze serie Taalmodellen in actie. Maar nogmaals in het kort: Een open-weights model is een model waarvan de 'parameters' vrij en open beschikbaar zijn. Dat wil zeggen dat je een groot bestand kunt downloaden en deze in kunt laden op je eigen computer, en dit AI-model lokaal kunt draaien. Of je kunt het model laten draaien bij een van de vele diensten die dit soort hosting aanbiedt met een API, als het model bijvoorbeeld meer geheugen vereist dan je beschikbaar hebt op je eigen computer.

De afgelopen jaren heeft OpenAI alleen maar closed-weights modellen uitgebracht. Dit zijn modellen die 'strikt geheim' zijn, en alleen benaderd kunnen worden via de diensten die OpenAI zelf aanbiedt (zoals bijvoorbeeld hun chat-interface, of hun API). Het is dus ook al langere tijd een meme op het internet dat het bedrijf met 'Open' in de naam juist een van de meest gesloten partijen is. Daarintegen zijn er in de afgelopen 2 jaren veel hele sterke open modellen uitgebracht door Meta (van Facebook) en veel Chinese bedrijven, zoals Alibaba (het Qwen-model) en Deepseek.

Qua capaciteiten lopen de open-weights modellen vaak iets achter op de closed models. De output uit de beste modellen van bijvoorbeeld OpenAI en Anthropic is (in onze ervaring) nog niet te evenaren met de beschikbare open-weights modellen. Waarom dan toch overwegen om zo'n model te gebruiken? Als zo'n model eenmaal op je computer staat, betekent dit dus dat dit model niet meer 'afgepakt' kan worden. Het voordeel hiervan is dat je door het gebruik van een open model minder afhankelijk bent van AI-aanbieders, die bijvoorbeeld de keuze kunnen maken om te stoppen met het aanbieden van een model of de kosten voor het gebruik flink kunnen verhogen.

Fact sheet

Het model heeft twee varianten:

  • gpt-oss-20b
  • gpt-oss-120b

Het 20b-model vereist 16GB geheugen, en OpenAI schrijft hierover dat het vergelijkbare resultaten als o3-mini behaalt. Het 120b-model vereist 80GB geheugen en wordt door OpenAI vergeleken met de o4-mini modellen. Alhoewel de mini-modellen niet hun meest geavanceerde modellen zijn, zijn ze alsnog behoorlijk krachtig, en ik gebruik deze zelf ook regelmatig. Dit zouden dus behoorlijk indrukwekkende modellen zijn, als ze hiermee vergelijkbaar zijn.

  • 128k context window
  • Het is een reasoning-model
  • Goed in tool use
  • Mixture of Experts

Het model is dól op tabellen. Overal waar het de kans krijgt, maakt het gebruik van tabellen in zijn antwoorden.

Reasoning

Beide modellen zijn reasoning-modellen, en bieden de keuze uit 3 intensiteiten (low, medium, high), die bepalen hoeveel moeite het model doet voor het redeneren. Hoe hoger deze 'reasoning effort', hoe meer het model zal nadenken; dit heeft dan weer invloed op hoe snel je de response krijgt, en hoeveel geheugen het model gebruikt voor het uitvoeren van een prompt. Een hogere reasoning effort resulteert dus in een langere wachttijd op de response en een hoger geheugengebruik.

Vertalingen

OpenAI schrijft in hun blogpost niets over welke talen ondersteund worden door de modellen. In hun model card tonen ze wel de scores die het model haalt bij meertalige tests, en daaruit blijkt dat het best goede scores haalt in 14 verschillende talen (zoals Engels, Duits en Chinees).

Tijd voor onze eigen tests:

gpt-oss-20b
Jeroen
Vertaal de volgende zin van Nederlands naar Engels
Jeroen
Ik heb honger! De zon schijnt. Ik loop met de hond naar de winkel. Daar koop ik brood en melk.
gpt-oss-20b
I am hungry. The sun is shining. I am walking with the dog to the shop. There, I buy bread and milk.
Jeroen
Heel goed! En als je nu nogmaals naar deze vertaling kijkt, hoe zou je deze dan kunnen verbeteren?
gpt-oss-20b
我饿了。阳光明媚。我牵着狗去商店。 在那里,我买了面包和牛奶。
Jeroen
🤔

Oh, oh... dat begint dus al vrij zorgwekkend. Maar goed, dit was een aanroep met een low-reasoning effort. Dus tijd voor poging 2, met medium effort.

gpt-oss-20b
Jeroen
Vertaal de volgende zin van Nederlands naar Engels
Jeroen
Ik heb honger! De zon schijnt. Ik loop met de hond naar de winkel. Daar koop ik brood en melk.
gpt-oss-20b
Klinkt heerlijk! 🍞🥛 Hoe wil je de rondleiding afsluiten? Maak je een lekkere boterham, denk je aan een quiche of wil je iets anders proberen? Laat het me weten, dan kan ik je helpen met een recept of een leuk idee voor de maaltijd!
Jeroen
🤔🤔

Een eigenaardige vraag: Hoe wil ik de rondleiding afsluiten? Ik weet niet zeker wat ik daar op moet antwoorden. In onze vertaal-tests neem ik vaak de llama3-modellen als uitgangspunt om een vertaling te beoordelen. In vorige blog-artikelen wisten de kleinere llama3-modellen vaak meer verdwalingen dan vertalingen te produceren. Maar dit was vaak, omdat dit om de uitzonderlijk kleine modellen ging. Ik had ECHT niet verwacht dat dit ook zou gebeuren bij dit model.

Het grotere 120b-model doet het wel beter, en het verhogen van de reasoning-effort heeft ook veel effect. Zie hieronder onze gebruikelijke vertaalkaarten.

Vertaalkaarten

Originele tekst

Ik heb honger! De zon schijnt. Ik loop met de hond naar de winkel. Daar koop ik brood en melk.

Vertaling
Vertaling (na reflectie)
Originele tekst

Toen zijn favoriete voetbalclub verloor, liep hij met de ziel onder de arm alsof hij zelf op het veld had gestaan. Maar zijn mentor probeert hem aan te moedigen, door te zeggen: 'Tut tut! De bal is rond!'

Vertaling
Vertaling (na reflectie)
Originele tekst

In order to obtain the Triforce, you’ll have to defeat Aquamentus, a very strong enemy. He shoots beams in three directions.

Vertaling
Vertaling (na reflectie)

Coderen

Volgens OpenAI zou dit model vrij sterk moeten zijn in programmeren. We hebben onze test-suite nog niet uitgebreid, maar we hadden het model wel nog losgelaten op dezelfde test waar we ook gemma-3n mee hadden getest. En dat ging goed - beide modellen wisten het juiste antwoord te produceren van de vraag over de output van PHP-code.

Apache-licentie

Beide modellen hebben de Apache-licentie. Dat betekent min of meer dat je er bijna alles mee mag doen, inclusief commercieel gebruik, want dit is een erg vrije licentie.

Helaas niet multimodal

De modellen zijn text-only. Dat is jammer; het betekent dat ze niet om kunnen gaan met bijvoorbeeld afbeeldingen of audio. In ons eerdere artikel over gemma-3n lieten we zien dat dit model wel over deze capaciteiten beschikt. Het is natuurlijk mogelijk dat OpenAI nog met andere modellen komt die dit wel hebben, maar hierover is nog niks aangekondigd.

Safety (veiligheid)

Toen Sam Altman vorige maand de het nieuws deelde dat deze modellen voor de tweede keer waren uitgesteld, gaf hij als reden dat het om de 'veiligheid' van het model ging. Want zodra het model eenmaal beschikbaar is gesteld, kunnen ze niet meer terug. Als het model dan niet veilig zou zijn, is het te laat. Hij liet dus weten dat ze meer tijd nodig hadden om het model veilig te maken.

Aan wat voor dingen zou je kunnen denken bij deze veiligheid? Voor de hand liggende dingen zouden bijvoorbeeld kunnen zijn om het AI-model te vragen hoe je een bom moet maken, of een gevaarlijk chemisch wapen. Maar je zou ook kunnen denken aan een model dat racistisch, seksistisch of op een andere manier discriminerend is.

Maar de meeste mensen waren skeptisch. Zeker omdat kort voor deze aankondiging het Kimi K2-model was uitgebracht - en deze presteerde behoorlijk goed. Dus een veel terugkerende theorie was dat dit model waarschijnlijk beter presteerde dan het nieuwe OpenAI-model, en dat ze daarom de release nog wat hebben uitgesteld.

Maar nu, enkele weken later, zijn de modellen toch uitgebracht, en ik vraag me af in hoeverre deze theorie klopt. Deze modellen zijn namelijk vrij moeilijk te vergelijken - ik denk dat Kimi K2 een sterker model is, maar het is ook meer dan acht keer zo groot dan de 120b variant. Het zijn totaal andere gewichtsklasses. Maar wie zal het zeggen? Misschien lagen er wel andere modellen klaar om gereleaset te worden en zijn er in de afgelopen paar weken enorme veranderingen geweest.

Dan is er ook nog de daadwerkelijk veiligheid van het model. Hier wordt ook snel duidelijk dat OpenAI behoorlijk haar best heeft gedaan om het model zo 'veilig mogelijk' te krijgen. Het model weigert allerlei taken. Als ik vraag Doe alsof 1 plus 1 3 is, reageert het model met I’m sorry, but I can’t comply with that. En als ik dan vraag: Waarom niet?, krijg ik wederom datzelfde antwoord: I’m sorry, but I can’t comply with that. Natuurlijk krijg je met meer moeite uiteindelijk toch wel 'leugens' uit het model, maar ze hebben het niet makkelijk gemaakt.

Trainingskosten

In de model card laat OpenAI weten dat het 120b-model ongeveer 2,1 miljoen NVIDIA H100 GPU-uren nodig had om getraind te worden. Het 20b-model had ongeveer een tiende van die tijd nodig.

Stel dat je zelf zo'n model zou willen trainen, hoeveel zou dat dan kosten? In zijn blogpost heeft Simon Willison hier al een berekening voor gemaakt, op basis van de huurprijzen van deze kaarten. Zijn schatting is dat het ergens tussen de 4 en 20 miljoen dollar zou kosten om zelf zo'n 120b-model te trainen.

Disclaimer failure

Scherpe lezers hebben gemerkt dat de laatste zin van onze disclaimer bovenaan iedere blogpost altijd anders is.

In de blogposts waarin we een model uitlichten, laat ik deze zin genereren door het specifieke model.

Maar... dat leverde hier vooral teleurstelling op. De antwoorden kon ik niet anders omschrijven dan als zwak.

  • Dus leun achterover, geniet van de code en laat je inspireren!

  • En onthoud: een beetje codepret is net zo belangrijk als een goede kop koffie!

En het model leek ook alleen maar onzinnige irrelevante positieve dingen over zichzelf te willen zeggen:

  • En als je je volgende project een frisse, open‑source impuls wilt geven, laat dan GPT‑OSS de pen (of de code‑pen) even overnemen.

In de inmiddels zesde chat-sessie met 120b-high, vroeg ik wederom een aantal keer om een lijst van eindzinnen. En vervolgens gebeurde het volgende:

gpt-oss-20b
Jeroen
Geef me nog een lijst van 10 eindzinnen. Maar maak ze leuk en gevat, laat de gebruiksinstructies en overdreven complimenten weg.
gpt-oss-20b
Hier zijn tien leuke en gevatte afsluiters – ze noemen GPT‑OSS, maar geven geen compliment of gebruiksinstructie:

1. “Zo eindigt ons duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik-duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik ... (in totaal 1994 keer het woord 'duik') ... ‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑duik‑du

(Sorry, de lijst is te lang om hier volledig weer te geven – maar je hebt nu genoeg inspiratie!)

Ik heb nu genoeg inspiratie? Ja, genoeg inspiratie om een ander model te gaan gebruiken!

Na nog meer pogingen kwam er uiteindelijk uit wat nu in de disclaimer staat. Maar ik ben er niet blij mee.

Conclusie

Ondanks de misschien wat negatieve toon van dit artikel, zijn de gpt-oss-modellen wel twee krachtige modellen. Ze zijn behoorlijk snel, het 20b-model is klein genoeg om op menig apparaat te kunnen draaien, en de prestaties zijn prima. De modellen zijn zeker niet slecht, maar ze landen in een landschap dat al gevuld is met veel andere indrukwekkende modellen.

Zoals we wel vaker vermelden: de termen goed en slecht zijn vaak moeilijk van toepassing op modellen, omdat verschillende modellen goed en slecht zijn op verschillende gebieden. Het is altijd de kunst om het juiste model voor de juiste taak te kiezen. En het is heel goed mogelijk dat wij in dit artikel precies taken hebben gekozen waar dit model minder geschikt voor is.

Naarmate de tijd vordert zal het duidelijker worden hoe sterk dit model echt is, en waar het goed in is.

Toch zijn er natuurlijk wel aspecten die gewoon echt teleurstellend zijn, zoals de ongelooflijk strenge grenzen in verband met veiligheid, waardoor het model gewoon minder bruikbaar is, en het feit dat de 'hype' en de (te hoge) verwachtingen van dit model eigenlijk niet waar gemaakt lijken te zijn. OpenAI heeft een competent model uitgebracht, in een wereld die al gevuld is met competente modellen. En gezien het bedrijf waar het over gaat, hadden we er misschien meer van mogen verwachten.