Disclaimer: Welkom bij onze TechBlog!
Dit is een artikel in ons TechBlog. Ons Techblog bevat artikelen, geschreven door onze developers, over dingen die ze zijn tegengekomen tijdens hun werkzaamheden. Deze artikelen gaan (meestal) over een technisch onderwerp, en zijn met name bedoeld om te vermaken en (soms) te informeren. Neem ze vooral niet te serieus... ondanks de levensechte beelden in deze blogpost!

wo. 25 jun. Auteur: Jeroen Mimpen

Wat wij vinden van Veo 3

Nieuwsgierig wat hier gebeurt? Lees dan verder.

Nieuwsgierig wat hier gebeurt? Lees dan verder.

Wat is Veo 3?

Veo 3 is de nieuwste generatieve video-AI van Google DeepMind. Hiermee kun je via een prompt en/of een bestaande afbeelding video's laten genereren. Laten we gelijk beginnen met een voorbeeld.

Disclaimer: Video's niet zichtbaar? Lees dit

Werken de video-voorbeelden hieronder niet goed? Grote kans dat je nog geen cookies hebt geaccepteerd, terwijl embedded YouTube-video’s die vereisen. Helaas heeft dit artikel weinig waarde als je deze video's niet kunt zien.

Hier zijn 2 mogelijkheden:
1. Wil je ze graag op onze website zien? Dan kun je hier je cookietoestemming aanpassen.
2. Wil je dat liever niet? Dan staat er bij iedere video ook nog een losse URL naar YouTube waar je op kunt klikken.

De balkendraak in animatie

Herinner je je de balkendraak nog? In het artikel Vertalen met AI - Deel 1: Lost in Translation schreef ik over hoe een slechte vertaling de zin 'een draak die balken schiet' produceerde. Natuurlijk kon ik het niet laten om dit ook te illustreren met een afbeelding.

Maar hoe zou dit er in beweging uitzien? Een mooie test-case voor veo3 dus. Ik stuur deze afbeelding naar veo3, samen met mijn prompt. Hieronder volgt het resultaat.

Balkendraak in bewegingVideo
Prompt
A green dragon firing 3 wooden beams from his mouth,
while a person in a green shirt is watching him with a wondering expression.

Leuk, maar nog niet helemaal goed!
Zoals in de video te zien was: het gaat nog niet helemaal goed. De draak sluit na enige tijd zijn mond (en begint zelfs vriendelijk te lachen), terwijl er nog wel balken worden geschoten uit zijn nu gesloten mond, en er zijn bijvoorbeeld ook artefacten rond de mond van het rechter personage.

Toch vind ik het wel een leuke video geworden: de geluidseffecten passen goed, de manier waarop de balken verschijnen is leuk, en het is ook interessant hoe de balken soms voor en soms achter het personage langs schieten.

Maak kennis met de fotograap

Enige tijd geleden verscheen er een artikel in het magazine INTO business over onze onze slimme software. Voor zo'n mooi artikel moesten natuurlijk ook foto's gemaakt worden. Ondergetekende is vrij ongeschikt voor dit soort publicaties, maar Casper en Henk zijn dat natuurlijk wel. Alleen hadden ze dus wel een vreemde ervaring met de fotograaf.

De fotograapVideo
Prompt
The camera turns around, and it is revealed a gorilla was the photographer, and the gorilla is camera shy so he panics and runs away.

We zien dus dat de video de prompt niet helemaal goed volgt. Maar de schuld daarvan is mogelijk ook deels bij mij neer te leggen - de prompt is namelijk nogal ambigu (want ik was gewoon nog aan het experimenteren). De verstoringen op de muur achter de bank zijn ook opmerkelijk. Misschien veroorzaakt door de binary strings links op de originele foto?

Veo 3 is ook vrij creatief - wanneer je veel vrijheid toestaat, door onvoldoende te specifieren, gaat Veo 3 zelf dingen invullen. Zoals de reacties van Casper en Henk op het einde, of hoe de groene balkendraak hierboven zijn mond sloot en begon te glimlachen. We zien dit fenomeen terug bij veel video's, ook bijvoorbeeld bij ongeregisseerde dialogen - als je niet in je prompt vermeldt wat er gezegd moet worden in een video, gaat Veo 3 zelfs iets bedenken.

Prompt adherence en incoherente video's

Een belangrijke lakmoesproef voor AI-generators is 'prompt adherence'. Met deze term bedoelen we hoe goed een AI je instructies opvolgt. Dit is van toepassing op LLM's (klopt de tekst die ze genereren), image generators (klopt het beeld), en uiteraard dus ook op video generators.

Op dit vlak doet Veo 3 het tot nu toe verrassend goed. Ondanks dat er verschillende mate van incoherentie te detecteren is, er regelmatig gekke dingen gebeuren, en de prompts niet altijd helemaal worden gevolgd, is in de meeste gevallen de prompt aardig terug te herkennen in de video.

Ter vergelijking bijvoorbeeld deze video die we gegenereerd hebben met Sora, van OpenAI:

De fotograap van SoraVideo
Prompt
A gorilla enters the room, takes a picture and then runs away. The 2 guys are shocked!

Prompt adherence en incoherente video's

Wow. Ik wist niet dat Casper zo atletisch was, en waar komt die tweelingbroer van Henk opeens vandaan? Het is verder lastig te omschrijven wat er hier precies gebeurt, maar het lijkt in ieder geval niet op waar ik om vroeg. In vergelijking hiermee is Veo 3 in onze ervaring dus al een stuk verder.

Geluid

Paperless officeVideo
Prompt
Interior office, early morning. A composed professional settles at his desk and powers on his computer. Instead of a gentle startup chime, it hums into a full-throttle jet engine roar. He leans back, unfazed, as a gale-force wind streams from the vents, sending loose papers, pens, and coffee mugs into a choreographed whirlwind.

Over dialogen en geluid gesproken: dit is 1 van de dingen die Veo 3 uniek maakt. In tegenstelling tot eerdere generatieve videomodellen, verwerkt Veo 3 zowel beeld als audio in één geïntegreerde stap: het model kan vanuit een enkele tekstprompt niet alleen bewegende beelden maken, maar ook bijpassende geluiden, dialogen en achtergrondmuziek toevoegen.

Ik vond dit persoonlijk het meest indrukwekkende aan deze video's. Het voegt veel meer toe dan je zou verwachten. Het model lijkt bijvoorbeeld vrij goed te begrijpen hoe de lippen moeten bewegen tijdens gesproken dialogen. Het model is in Engelse dialogen natuurlijk het sterkst, omdat hier ongetwijfeld het meeste trainingsmateriaal voor is, maar ook Nederlandse teksten werkten eigenlijk beter dan ik had verwacht. Zie hiervoor bijvoorbeeld onze volgende video.

Prijs en beschikbaarheid

Jeroen, stop met die flauwe grappen! Dit kost ons een fortuin!Video
Prompt
2 dutch people are talking on top of a huge dam, surrounded by snowy mountains.
Person 1 (Casper) tells person 2 (Jeroen) to stop it with the jokes (in dutch), person 2 (Jeroen) responds by bungie jumping. In the background behind him explosions are everywhere.

Audio:
Howling wind under Casper, heartbeat-thump build into Jeroen’s scream, bass drop on explosion.

Casper (on edge):
"Jeroen, stop met die flauwe grappen! Dit kost ons een fortuin."

Jeroen (yelling, mid-jump):
"NEEEEE, dit wordt legendarisch!"

Komt die eerste stem jullie ook bekend voor? Waarom kijken ze steeds naar de camera? Waarom maakt hij het geluid van een weerwolf? En Jeroen... volgens mij ben je het belangrijkste onderdeel van bungeejumpen vergeten? Namelijk dat je een touw nodig hebt.

Op het moment van schrijven zijn prijs en beschikbaarheid de belangrijkste nadelen van Veo 3. De prijs is behoorlijk hoog: met Google Pro (20 euro per maand) kun je 6 video's per maand genereren, en met Google Ultra (250 euro per maand) zijn er er tussen de 60 en 125 (verschillende bronnen beweren verschillende dingen). Maar geen van die dingen doet ertoe: want Veo 3 is via Google nog steeds niet beschikbaar in Nederland.

Er zijn natuurlijk wel andere opties, door zogenaamde 'third party providers' te gebruiken. De kosten verschillen per provider, maar in onze ervaring komt dit neer op 6 tot 10 euro per video (van 8 seconden).

Als we kijken naar voorgaande situaties is het goed mogelijk dat deze situatie zichzelf uiteindelijk oplost. Kosten voor het gebruik van AI dalen voortdurend, en we hopen dat de dienst zelf uiteindelijk ook in Nederland beschikbaar komt via Google zelf.

Conclusie

Het ovenmonsterVideo
Prompt
A man is filling his drink, but suddenly a scary monster crawls out of the oven behind him. The man drops his drink and bottle, grabs the tray of food, and runs away with it.

Het is duidelijk dat we er nog niet helemaal zijn. Het is natuurlijk heel makkelijk om vooral in te gaan op alles wat fout gaat. Veo 3 volgt vaak de instructies niet goed genoeg, genereert en hallucineert regelmatig totaal incoherente dingen, en is bovendien nog erg duur om te gebruiken.

Maar ik vergelijk het graag met de image generators van twee jaar geleden. In het begin van 2023 waren de image generators het merendeel van de tijd nog niet in staat om goede handen te genereren met een correct aantal vingers. En pas sinds begin dit jaar gaat het genereren van teksten in afbeeldingen redelijk goed. Misschien gaan de video-generators wel een vergelijkbare reis afleggen. Dus wie weet hoe video generation er over twee jaar uitziet?

Wij zijn in ieder geval erg benieuwd. Voor mij persoonlijk vind ik het nu al erg indrukwekkend, en ik heb nu al heel veel lol met het genereren van deze video's.