Disclaimer: Welkom bij onze TechBlog!
Dit is een artikel in ons TechBlog. Ons Techblog bevat artikelen, geschreven door onze developers, over dingen die ze zijn tegengekomen tijdens hun werkzaamheden. Deze artikelen gaan (meestal) over een technisch onderwerp, en zijn met name bedoeld om te vermaken en (soms) te informeren. Dit keer geschreven door iemand die verstand heeft van echte talen in plaats van programmeertalen!

vr. 25 jul. Auteurs: drs. Pepijn de Boer, Jeroen Mimpen

Vertalen met AI - Deel 3: Taalkundige Langpep aan het woord

Introductie gastschrijver

Dit artikel is grotendeels geschreven door gastschrijver LangPep. In dit voorwoord wil ik hem kort introduceren, voordat ik hem het woord geef.

Wie is LangPep?

  • LangPep is vertaler Spaans-Nederlands en Engels-Nederlands.
  • LangPep is drs. Pepijn de Boer, Spaans taalkundige.
  • LangPep is specialist in fietsen.
  • LangPep heeft ervaring sinds 2005.
  • LangPep heeft een website: langpep.nl

In dit artikel omschrijft LangPep enkele van de punten waar AI-vertalers op dit moment nog moeite mee hebben, en beschrijft hij enkele van de nuances die komen kijken bij het maken van goede en correcte vertalingen.

De meeste informatie in dit artikel is dus afkomstig van LangPep. Op een aantal plekken heb ik natuurlijk onze bekende vertaalkaarten toegevoegd - al is het alleen maar zodat we tussendoor weer even kunnen genieten van de 'vertalingen' die bijvoorbeeld Llama3 1B weer weet te produceren. En ik kan het natuurlijk niet laten om ook hier en daar afbeelding neer te zetten.

Stijlfouten en woordgroepvolgorde

De kwaliteit van een vertaling zit ook vaak in de niet-verplichte woord(groep)volgorde. Daarvoor bieden menselijke vertalers meerwaarde, omdat AI vooralsnog niet ‘aanvoelt’ wat stijlfouten zijn, domweg omdat de zinnen grammaticaal en syntactisch correct zijn. Ze kunnen correct zijn en toch niet goed de betekenis van de bron weergeven. Een voorbeeld:

EN For example, AI chatbots can be used to write malicious code, or malware, making it easier for less skilled attackers to create custom malware capable of stealing data or money.

NL1 Ze kunnen AI-chatbots bijvoorbeeld inzetten voor het schrijven van schadelijke code, of malware, waardoor het eenvoudiger wordt voor onervaren aanvallers om malware op maat te maken waarmee ze geld of gegevens kunnen stelen.

NL2 AI-chatbots kunnen ze bijvoorbeeld inzetten voor het schrijven van schadelijke code, of malware, waardoor het voor onervaren aanvallers eenvoudiger wordt om malware op maat te maken waarmee ze geld of gegevens kunnen stelen.

Je kunt denken dat NL1 en NL2 hetzelfde zeggen. Maar in vertaling NL1 weegt “[dat het] onervaren aanvallers [zijn]” zwaarder dan “[dat] het [voor hen] eenvoudiger wordt” en in NL2 is dat andersom. In het EN ligt het zwaartepunt volgens mij ook bij “(…) eenvoudiger (…)” en daarom is NL2 een betere vertaling. Ik vind zelfs dat NL1 een FOUTE vertaling is.

Een tegenwerping kan zijn dat het Engels deze woordgroepvolgorde wel verplicht is. De zinsnede “making it for less skilled attackers easier to…” is incorrect. Maar als het Engels had ‘gewild’ dat NL1 een goede vertaling was, dan zou het Engels er anders uit hebben gezien, bijvoorbeeld: “For example, AI chatbots can be used to write malicious code, or malware, to enable even less skilled attackers to create custom malware capable of stealing data or money.”

Originele tekst

For example, AI chatbots can be used to write malicious code, or malware, making it easier for less skilled attackers to create custom malware capable of stealing data or money.

Vertaling
Vertaling (na reflectie)

Vendor having trouble

Ander voorbeeld, vertaling van ChatGPT:

EN: A vendor is having trouble following policy when dealing with your department, which is creating friction with your team.

NL1: Een leverancier heeft moeite om het beleid te volgen bij het omgaan met uw afdeling, wat wrijving met uw team veroorzaakt.

Op het oog een correcte vertaling, grammaticaal in orde (al valt er stilistisch iets aan te merken op het gebruik van “, wat…”, maar dat is persoonlijk).

Het punt is echter dat in NL1 de nadruk ligt op “met uw afdeling”, alsof dit moet contrasteren met een andere afdeling. De context van het voorafgaande (mag je van mij aannemen) gebiedt echter dat “moeite om het beleid te volgen” voor de “wrijving” zorgt. Daarom moet de vertaling als volgt zijn:

NL2: Een leverancier heeft bij het omgaan met uw afdeling moeite om het beleid te volgen, iets wat wrijving met uw team veroorzaakt.

Dit zorgt voor een cruciaal betekenisverschil.

Originele tekst

A vendor is having trouble following policy when dealing with your department, which is creating friction with your team.

Vertaling
Vertaling (na reflectie)

Goed vertalen is herschrijven

In deel 1 van deze blogserie schrijft Jeroen het volgende:

“Het is niet ongebruikelijk voor modellen om tientallen of zelfs honderden keren zo groot te zijn.”

Deze zin is geschreven door NL native speaker Jeroen, zoals ik weet, maar lijkt (te letterlijk) uit het Engels vertaald: “It is not unusual/uncommon for models to be tens or even hundreds of times larger”.

Vragen we ChatGPT dit terug te vertalen naar het Nederlands, krijgen we dit: “Het is niet ongebruikelijk dat modellen tientallen of zelfs honderden keren groter zijn.”

Dit vind ik nog steeds vrij krom klinken, want een echte (menselijke!?) vertaling zou zijn: “Vaak zijn deze modellen tientallen of honderden keren zo groot”.

Dit zit hem vooral in de vergrotende trap “larger/groter”. In het Engels is een zinsnede als “ten times as large as” misschien wel mogelijk, maar niet gebruikelijk. Quite uncommon zelfs. Daarom moet de AI hier overstappen van de ene woordvorm naar de andere. Dit ligt voor de menselijke vertaler voor de hand, maar voor deze AI-vertaler blijkbaar niet.

Ook het invoegen van het aanwijzend voornaamwoord “deze” gaat niet vanzelf. In het Nederlands geldt als stijlregel dat je geen generiek zelfstandig naamwoord als onderwerp van een (bij)zin mag gebruiken zonder dat duidelijk is naar welk exemplaar of welke exemplaren het verwijst.

In het Engels bestaat voor zover ik weet niet zo’n regel en bevat de context voldoende impliciete verwijzing.

“It is not uncommon for models to be tens or even hundreds of times larger” “Vaak zijn deze modellen tientallen of honderden keren zo groot” In het Engels kan er wel “these” bij, maar hoeft het niet. In het Nederlands staat er zonder “deze” dat ALLE modellen … zo groot zijn.

Spaans

Dan het Spaans. ChatGPT vertaalt de NL zin als volgt: “A menudo, estos modelos son decenas o cientos de veces más grandes.

Als ik de Engelse zin “It is not uncommon for models to be tens or even hundreds of times larger” invoer, komt ChatGPT hiermee: “No es raro que los modelos sean decenas o incluso cientos de veces más grandes.

Dat is naar mijn mening een erbarmelijke vertaling. “No es raro” mag je bijna zo opvatten als in het Nederlands: het is niet raar. Al heeft het woord “raro” in het Spaans een meer cijfermatige betekenis (‘zeldzaam’) dan bij ons, het weerspiegelt nauwelijks de essentie van de Engelse of Nederlandse bron: dat de modellen meestal/vaak/normaliter … zo groot zijn.

En dat terwijl ze daar in het Spaans een uitstekende constructie voor hebben, een heel werkwoord zelfs, “soler + infinitivum”, dat zoiets als “gewoonlijk [doen/zijn/hebben]” betekent. Een goede vertaling zou zijn: “Estos modelos suelen ser decenas o hasta cientos de veces más grandes”.

Originele tekst

Het is niet ongebruikelijk voor modellen om tientallen of zelfs honderden keren zo groot te zijn.

Vertaling
Vertaling (na reflectie)

Zo kort mogelijk

Een andere kwestie die bij me opkomt, is de gewenste lengte of kortheid van een vertaling. Dit is vooral relevant bij de vertaling van interfaces, zoals op aanraakschermen:

Voorbeelden: “undo” en “restart”= “ongedaan maken” en “opnieuw starten”. Als je ze combineert, is het helemaal feest: “undo restart” = “het opnieuw starten ongedaan maken”. Zelfs met de directe gebiedende wijs, is het nog heel lang: “maak herstart ongedaan”.

De vraag is hoe je AI dit kunt duidelijk maken in een prompt. Want er zijn wel alternatieven mogelijk: “Undo” = “Tenietdoen”. Aangezien je dit in geen enkel woordenboek vindt, moet het op een andere manier in het LLM gestopt worden. Of niet. En laten we daar de mensen voor blijven inzetten.

Conclusie

Nogmaals bedankt Pepijn, voor het schrijven van dit artikel!

Hij vroeg als bedankje om een ollekebolleke, maar aangezien ik geen idee heb wat dat is, hoop ik dat een vermelding van hem en zijn website ook goed genoeg is 😁

Je kunt meer lezen van en over Langpep op langpep.nl

Je kunt meer lezen van en over Langpep op langpep.nl