Google has the box below the knee?

papegaaien3“Google Translate is geen knullige vertaalmachine meer”, schreef Anna Tuenter vorige week op Kennislink. “Zijn naar het Engels vertaalde teksten naderen het niveau dat studenten moeten hebben om te slagen voor hun toelatingsexamen Engels op de universiteit.”

Zou het?

Laat ik vooropstellen dat ik Google Translate (GT) hartstikke handig vind. Ik zet hem zowat dagelijks voor me aan het werk, meestal om een idee te krijgen van wat teksten ongeveer betekenen. Ik laat al dat Pools, Turks en Welsh dan niet in het Nederlands vertalen, want dat levert te vaak ondoorgrondelijke wartaal op, maar in het Engels, want dan zijn de resultaten, hoewel krakkemikkig, een heel stuk begrijpelijker. Dank, Google! Maar toch, als dit bij benadering het niveau zou zijn dat studenten moeten hebben om te slagen voor hun toelatingsexamen Engels op de universiteit, zoals Tuenter beweert, dan zou ik mijn hart vasthouden voor die universiteiten.

Hoe komt het eigenlijk dat Google nog steeds zo veel fouten maakt, ondanks jaren oefenen? De Nijmeegse taaltechnoloog Antal van den Bosch weet dat. Hij zegt over Google Translate: “Hij vertaalt vaak verkeerd als de grammatica of de woordvorming van de twee talen verschillend is.” Dat geldt dus voor bijna alle talenkoppels. Vertalingen tussen clubjes als Italiaans, Portugees, Spaans en Catalaans, Deens, Noors en Zweeds, en Tsjechisch en Slowaaks zullen waarschijnlijk een beter niveau halen. Maar dat zijn de uitzonderingen. Ze verschillen zo weinig van elkaar dat een vertaalmachine bijna overbodig is.

Een van de onopgeloste problemen met machinevertalen is dat computers slecht zijn in zinsontleding. GT probeert dat zelfs niet eens, naar ik meen. Hij moet het hebben van twee dingen: hij bedrijft statistiek op kleine groepjes naburige woorden en hij leunt op menselijke hulp.

(Veel andere vormen van kunstmatige intelligentie behelpen zich trouwens eveneens met een mengsel van ahnungslos doorrekenen en menselijke hulp. In een interview dat ik onlangs had met de informatiefilosoof Luciano Floridi, verzuchtte hij: “Er is nog geen kunstmatige intelligentie. We hebben kunstmatige slimheid (smartness).” En naar zijn zeggen was John McCarthy, bedenker van het concept AI, dezelfde mening toegedaan. Zelfs het paradepaardje van de AI, de schaakcomputer, verdient die afkorting volgens beide mannen niet.)

Genoeg genamedropt, terug naar Google Translate. Menselijke hulp verklaart waarom die machine Nederlandse zin (1) feilloos kan omrekenen tot Engelse zin (2):
(1) Ze ontvangen een e-mail iedere keer als je een bericht publiceert.
(2) They receive an email every time you publish a post
Van deze zin staan vermoedelijk Engelse en Nederlandse versies online (of anders grote fragmenten ervan), vertaald door een mens. Elke keer als een GT-gebruiker die zin opnieuw ‘automatisch’ laat vertalen, haalt Google de oorspronkelijke menselijke vertaling op. Is GT dus ‘geen knullige vertaalmachine meer’, zoals Tuenter schrijft? Hm. Vroeger zou deze methode ‘afkijken’ hebben geheten. Maar alla, in dit geval geldt: beter goed afgekeken dan slecht verzonnen.

Maar met afkijken kom je niet heel ver. Veel moeilijker dan zinnetje (1) mag het voor GT dan ook niet worden. Het blogplatform WordPress gebruikt in zijn communicatie niet zin (1), maar de volgende variant:
(3) Ze ontvangen iedere keer als je een bericht publiceert een e-mail.
Andere woordvolgorde, en prompt is GT van slag:
(4) They receive a message every time you publish an e-mail.
Doordat GT niet snapt hoe de zin in elkaar zit, neemt hij aan dat het bericht ontvangen wordt en de email gepubliceerd in plaats van omgekeerd. Wat dicht bij elkaar staat, hoort bij elkaar, redeneert hij. Geen knullige vertaalmachine – echt niet?

Het is niet moeilijk om GT nog erger van de waps te brengen. Neem
(5) Ze ontvangen iedere keer als je een haas vangt een e-mail.
Een negenjarige ziet dat de zinnen 3 en 5 hetzelfde in elkaar zitten. Maar GT niet:
(6) She received every time you catch a hare an email.
Opeens wordt ‘ze’ opgevat als een vrouwelijk enkelvoud en, erger nog, we krijgen een ongrammaticale Engelse zin voorgeschoteld die op het randje van begrijpelijkheid balanceert. (4) was al niet best, maar (6) is erger.

Aan het eind van het artikel maken we kennis met een nieuwe vertaalmachine die Van den Bosch samen met computerprogrammeur Maarten van Gompel aan het maken is. Die machine vertaalt alleen korte fragmenten. Dingen dus als
(7) Ze ontvangen een e-mail.
(8) Als je een haas vangt.
Dat is jammer van de moeite, want zulke zinnetjes kan ook GT al moeiteloos aan:
(9) They receive an email.
(10) If you catch a hare.

Ik zei het al aan het begin: GT is hartstikke handig. Hij is een zeer belezen afkijker met een ijzersterk geheugen, en dat maakt hem tot een heerlijk gedienstig vertaalhulpje. Maar beledig intelligente studenten niet door te suggereren dat hun taalvermogen daarmee te vergelijken zou zijn.

****

De titel van dit artikel is de automatische vertaling van ‘Heeft Google het vak onder de knie?’ Maar ere wie ere toekomt: de zin ‘Heeft Google het ambacht onder de knie?’ leverde op: ‘Google has mastered the craft?’ Verrassend goed! En het kan nog beter worden als GT een keer doorkrijgt wat een vraagteken betekent (waarvoor hij waarschijnlijk eerst moet gaan snappen wat een vraag is).

Dit bericht werd geplaatst in Nederlandse taal, taal algemeen, vreemde talen en getagged met , , , . Maak dit favoriet permalink.

Plaats een reactie