In de Wall Street Journal voorspelt Alec Ross dat ‘de taalbarrière op het punt van verdwijnen staat’ (of ‘ongeveer te vallen is’, zoals Google Translate de Engelse formulering ‘is about to fall’ vertaalt). Om precies te zijn voorspelt Ross dat ‘over tien jaar een klein oortje je in je moedertaal vrijwel onmiddellijk zal toefluisteren wat iemand anders in een vreemde taal tegen je zegt.’
Ik denk om vier redenen dat dat niet klopt. Hier komen ze, van zwak naar sterk.
1. De belofte is al decennia oud, en nog steeds niet uitgekomen. Automatisch tolken en vertalen is net zo’n heilige graal van technologische ontwikkeling als kernfusie (met stroom ‘too cheap to meter’ – een belofte uit 1954) en zelfrijdende auto’s – ik herinner me dat ik daar in 1975 op de basisschool al een boekje over kreeg voorgeschoteld, Waar een wiel is, is een weg. Zo’n voorgeschiedenis bewijst natuurlijk allerminst dat die dingen er nooit zullen komen. Maar een zekere scepsis is op zijn plaats.
2. Spraak verstaan is erg moeilijk voor apparaten, en nog altijd moet software wennen aan de stem en de woordkeus van elke nieuwe spreker. Onder suboptimale omstandigheden (omgevingslawaai, slordige of emotioneel gekleurde uitspraak) verstaat een apparaat ons nog veel slechter. Wel schijnt de kwaliteit vooruit te gaan, dus misschien is het louter nog een kwestie van steeds slimmere algoritmes en steeds meer rekenkracht; dat kan ik niet beoordelen.
3. De huidige kwaliteit van automatisch vertalen is beroerd, in tegenstelling tot wat ons in binnen- en buitenlandse media om de haverklap wordt verzekerd. Google Translate, de variant die ik bijna dagelijks gebruik, weet keer op keer mijn toch al lage verwachtingen te ondertreffen. Het programma verhaspelt zelfs met grote regelmaat de namen van steden, landen en talen. Soms snap ik waarom, maar nog veel vaker sta ik versteld.
Vanmorgen heb ik nog gekeken hoe Google mijn blogje van gisteren in het Spaans vertaalt, om te zien of een Peruaanse vriendin het zou kunnen snappen. Ik kan je verzekeren: het werd wartaal. De Engelse vertaling was wel redelijk (al zou elke vwo-eindexamenkandidaat het hopelijk beter doen). Google Translate heeft niet voor niks ‘translate’ in zijn naam: het is op dit moment vooral een – gebrekkige – vertaalmachine in en uit het Engels.
En o ja, wat die machine probeert te vertalen, is keurige schrijftaal. Van spreektaal, vol onafgemaakte zinnen, herhalingen en meer van die doodgewone slordigheid, zou ze nog veel minder bakken. Kortom: de Google Interpreter (tolk) waar Ross van droomt, heeft nog een lange, lange weg te gaan.
4. De belangrijkste reden voor mijn ongeloof is dat vertaalprogramma’s een fundamentele weeffout bevatten: ze benaderen taal statistisch. Ze vergelijken alle input met hun databank, kijken wat er het meest op lijkt en wat het vaakst voorkomt, en concluderen op basis daarvan welke output de meeste kans maakt om te kloppen. Dat blijkt te werken – tot op zekere, vrij beperkte hoogte.
Tot veel grotere hoogte zal die aanpak ook niet kunnen komen. Vertaalprogrammatuur doet namelijk twee belangrijke dingen niet: ontleden en begrijpen. Ze snapt niets van grammatica en nog minder van de menselijke ervaring van de werkelijkheid. Zolang dat zo blijft, zullen machines verre achterblijven bij vertalers en tolken van vlees, bloed en brein. Een apparaat dat ‘weddenschap’ in het Spaans vertaalt als apostó (‘heeft gewed’), is een grammaticale onbenul. Een apparaat dat niet weet of het van prijs ‘price’ of ‘award’ moet maken, is een sukkel – elke lezer heeft dat in luttele secondes afgeleid uit de context.
Google Translate blijft in mijn ervaring al een aantal jaren steken op zijn huidige niveau van nuttig gehallucineer. Ik ben ervan overtuigd dat het zijn gebreken zal behouden zolang het niet wat meer grammaticabenul en wereldwijsheid opdoet.
En dat stuk in Wall Street Journal? Als er in de tussentijd geen wetenschappelijke doorbraak komt, kan het over tien jaar weer precies zo in de krant.
ONDERtreffen….? Wat een lelijk woord….
LikeLike
Bij copyediting kan een machine al vrij ver gaan in ontleding, maar dan hebben we het natuurlijk over eentalige taalsoftware. Het is het soort software die al automatisch beurs- en weerberichten genereert, teksttypes waar niet zoveel variatie in zit, en die schrijfadvies geeft (‘opgelet, een passiefconstructie! Let op, je zin bevat 45 woorden en is dus aan de lange kant!’)Hier zie je een voorbeeldje: http://schrijfhulp.taalunie.org/. En ja, software kan al flink ontleden en rekening houden met context, maar daar heb je ook ontzettend complexe programmatuur voor nodig. En dan nog botst die snel op zijn grenzen. Zo’n grens is bij schrijfhulpen de dt-regel. Geen enkele spellingcontrole, hoe degelijk ook, kan dt-fouten volledig uitsluiten. Het verschil tussen ‘dat het morgen allemaal heel zeker gebeurt.’ en ‘het is gisteren allemaal heel zeker gebeurd’ blijft voor zulke software onvatbaar.
Bij vertaalsoftware gaat het over taalsysteem 1 (met al zijn nuances, context, grammaticale structuren enz.) dat in taalsysteem 2 (met al zijn nuances, contexten, grammaticale structuren enz.) moet worden overgezet. Als eentalige software het al zo lastig is, dan is meertalige helemaal een hopeloze zaak. En dan hebben we het inderdaad nog niet over leukigheidjes als spreektaal, gemummel, verschillende stemmen en accenten, achtergrondgeluid, … Zolang een spraakherkenningsprogramma als Dragon al ‘ingeleerd’ moet worden wat betreft stem en omgevingsgeluid, is een oortje als overal bruikbare automatische tolk nog hele verre toekomstmuziek.
LikeLike
Dank je voor deze aanvulling!
LikeLike
Ik ben eigenlijk benieuwd wat Machine Learning (Deep Learning) ervan zal bakken in het vertaal-probleem. Met al die vertaalde literatuur die we inmiddels hebben als trainings-input, moet er toch wel iets nuttigs uitkomen!
LikeLike
Dat zal vast weer ietsje helpen. Maar het basisprobleem blijft bestaan, voorzover ik dat van een afstandje kan overzien. Eén en dezelfde zin kan twee volslagen andere juiste vertalingen hebben, al naar gelang de context. Het zal me benieuwen of een machine zo diep kan leren.
LikeLike
Niet alleen al naar gelang de context. Twee verschillende vertalers kunnen al twee verschillende en toch helemaal juiste vertalingen leveren. Kwestie van stijl.
LikeLike
Zeker, zonder meer. Ik zei het niet goed. Ik bedoelde: één zin kan twee verschillende *betekenissen* hebben (en dus twee daarbij horende vertalingen).
LikeLike