Logo Eloquo

Vertaaltechnologie

Er zijn twee belangrijke technologieën voor het geautomatiseerd vertalen van elektronische documenten: MT (Machine Translation) en CAT (Computer-Aided Translation).

MT-toepassingen vertalen meestal hele documenten tegelijk en geven een wisselend resultaat. Lang niet slecht bij het vertalen van Franse en Spaanse teksten in het Engels, vaak teleurstellend als Nederlands de doeltaal is. Toepassingen voor het maken van MT-vertalingen worden gratis op internet aangeboden door bijvoorbeeld Microsoft Translator, Google Translate, Yandex Translate en FreeTranslation.

Een geduchte concurrent is de in 2017 gelanceerde neurale vertaalengine DeepL van het Duitse bedrijf met dezelfde naam, bekend van de website Linguee, waar vertalers al jaren graag kwamen. Ook Google Translate en Microsoft Translator zijn in 2017 overgestapt naar neurale vertalingen. Er worden nu hele zinnen tegelijk vertaald in plaats van losse termen. Ook u ziet ongetwijfeld die eindeloze stroom van artikelen, berichten in de sociale media en andere publicaties over kunstmatige intelligentie en de wonderen van ChatGPT. Professionele vertalers die DeepL kennen zijn minder verrast dan vele anderen. Wij maken feitelijk al sinds 2017 gebruik van AI.

De achilleshiel van kunstmatige intelligentie, dus ook van ChatGPT en DeepL, is dat machines niet weten wat ze niet weten. De resultaten zien er op het eerste gezicht geweldig uit maar zijn regelmatig onvolledig of compleet uit de duim gezogen. Soms lijken de grote taalmodellen (LLM’s) precies te weten wat het antwoord op een vraag is, maar soms herhalen ze willekeurige feiten uit hun trainingsgegevens. Als ze af en toe klinken alsof ze geen idee hebben wat ze zeggen, dan komt dat doordat dat daadwerkelijk het geval is. LLM’s weten hoe woorden statistisch met elkaar samenhangen, maar niet wat ze betekenen.

Dat ChatGPT soms hallucineert, haalt de kranten nog. Vertaalmachines zijn minder mediageniek. Door de almaar betere algoritmen worden de vertaalfouten steeds geniepiger en moeilijker te ontdekken. Het verbeteren van machinevertalingen wordt ongetwijfeld een vak apart maar ik zal die beker aan me voorbij laten gaan. De hoeveelheid te vertalen content groeit met de dag en niets wijst erop dat de groei van dit volume zal vertragen. Eloquo vertrouwt erop dat er voorlopig nog genoeg vertaalwerk overblijft voor ervaren professionele vertalers.

CAT-toepassingen delen een te vertalen tekst op in segmenten ter grootte van bijvoorbeeld een zin of een alinea en gaan dan in een database op zoek naar identieke of vergelijkbare segmenten en de eerdere vertalingen daarvan. Marktleider in CAT-pakketten is SDL Trados, andere bekende pakketten zijn bijvoorbeeld Déjà Vu, Transit, MemoQ en IBM Translation Manager. Onze persoonlijke favoriet is Wordfast Classic. Wordfast is het geesteskind van de anarchistisch-geniale vertaler Yves Champollion die een groot deel van de functies van het voormalige Trados Workbench heeft weten te vangen in een Word-sjabloon van rond de 2 MB.

Veel CAT-tools bieden de vertaler tegenwoordig de mogelijkheid segmenten bij hun eigen of publieke vertaalmachines aan te bieden en veel MT-tools maken tegenwoordig ook gebruik van databases met kant-en-klaar vertaalde segmenten. Er is allang geen sprake meer van één soort machinevertaling, we onderscheiden tegenwoordig onder meer: phrase-based machine translation (PBMT), rule-based machine translation (RBMT), statistical machine translation (SMT), example-based machine translation (EBMT), hybrid machine translation (HMT) en neural machine translation (NMT). De technologie staat niet stil en de grenzen tussen CAT en MT vervagen. Verstandige opdrachtgevers en vertalers houden alle ontwikkelingen goed in de gaten. Lees hier een interessant Engelstalig artikel over hoe Facebook van PBMT op NMT is overgestapt.

De volledig geautomatiseerde vertaler vertaalt een document eerst met CAT en dan met MT. Het resultaat wordt vervolgens geredigeerd met behulp van spraakherkenning en spelling- en grammaticacontrole. Eloquo werkt iets minder hightech en beperkt zich voornamelijk tot het gebruik van Trados Studio en Wordfast, gecombineerd met handige tools als IntelliWebSearch en GT4T om razendsnel op internet te kunnen zoeken. Hieronder vindt u een kort overzicht van de voordelen van deze manier van werken voor de vertaler en de klant. De getoonde CAT-toepassing is Wordfast Classic.

Wordfast segmenteert een te vertalen document en vergelijkt de segmenten met eerder vertaalde segmenten die zijn opgeslagen in een vertaalgeheugen. Indien Wordfast een zogenaamde match vindt, verschijnt de eerdere vertaling als voorstel tegen een gekleurde achtergrond in het document. Zo’n voorstel ziet er als volgt uit:

segment

Het matchpercentage bedraagt in dit geval 81, dus de vertaling is bijna goed. De vertaler kan de voorgestelde vertaling nu direct accepteren of het doelsegment eerst nog redigeren voor hij doorgaat naar het volgende segment. Elke nieuwe vertaling wordt weer opgeslagen in het vertaalgeheugen.

Segmentatie

Het vertalen van Wordfast-segmenten biedt zelfs zonder vertaalgeheugen veel voordelen in vergelijking met het vertalen vanaf papier en is ook voor de literaire vertaler een uitkomst. Allereerst scheelt het veel werk dat de opmaak van de bronsegmenten automatisch naar de doelsegmenten wordt gekopieerd en de taalinstellingen voor de spelling- en grammaticacontrole automatisch worden aangepast.

Belangrijker is dat segmenten op elke gewenste grootte op het beeldscherm kunnen worden weergegeven en dat de vertaler niet steeds opnieuw zijn ogen hoeft scherp te stellen om in de paperassen te zoeken naar de laatste of de volgende zin. Per ongeluk tekst overslaan of bijvoorbeeld codes of namen verkeerd overtypen is verleden tijd.

Het grootste voordeel is het gemak en de snelheid waarmee termen (kunnen) worden opgezocht. Wordfast zoekt in één of meer vertaalgeheugens en gelijktijdig ook in meerdere woordenlijsten. De vertaler kan per onderwerp en klant woordenlijsten aanleggen van termen en teksten met een vertaling en een commentaar. Ook de klant kan lijsten aanleveren met termen en vertalingen die absoluut wel of zeker niet moeten worden gebruikt. Wordfast bewaakt tijdens het vertalen het consistente gebruik van de terminologie en huisstijl van de klant en signaleert mogelijke fouten. Alle herkende terminologie wordt gemarkeerd en kan eenvoudig worden ingevoegd in het doelsegment. Onbekende termen kunnen alsnog met een simpele muisklik worden opgezocht in meerdere vertaalgeheugens, tekstverzamelingen en lokale of externe woordenboeken.

Een laatste voordeel van segmenteren met Wordfast is de unieke mogelijkheid om zo goed als elk document direct of parallel te openen, te segmenteren en te vertalen in Microsoft Word. Dit biedt een vertaler met enige Windows-ervaring de mogelijkheid om vertalingen (inclusief vertaalgeheugen) te leveren van alle gangbare tekstverwerkerbestanden, alle Microsoft Office-bestanden (Excel, PowerPoint, Access etc.), alle gangbare internetbestanden (HTML, SGML, XML etc.) en – na een conversie – van de PDF-bestanden van Adobe.

Vertaalgeheugens

Vertalers hebben minder voordeel van het werken met vertaalgeheugens dan wel wordt gedacht. Vertaalbureaus en grote klanten maken voorvertalingen van de documenten met behulp van hun eigen vertaalgeheugens. Ze bedingen pittige kortingen voor alle gevonden matches en herhalingen en leveren bovendien vaak alleen de gesegmenteerde documenten aan en niet de vertaalgeheugens zelf.

De tijd dat je een handleiding van 10.000 woorden voor wasmachine 6482 gniffelend in één dag kon vertalen omdat je een paar maanden eerder de handleiding voor de 6480 al met je CAT-pakket had vertaald, was al voorbij voordat hij echt was begonnen. De vertaler heeft dus het meeste plezier van zijn vertaalgeheugens in de steeds schaarser wordende gevallen dat hij ze kan gebruiken voor een (nieuwe, vaste) klant die nog niet over vertaalgeheugens beschikt. In alle andere gevallen ligt de grootste winst voor de vertaler in de consistentie en kwaliteit van de vertaling zelf. Selecteer een woord wordt niet een bladzijde verder Kies een woord of Klik op een woord.

In de CAT-markt spelen grote strategische belangen en worden belangrijke investeringen gedaan. Een bedrijf of vertaalbureau dat heeft geïnvesteerd in een bepaalde CAT-toepassing zal van de vertaler compatibiliteit eisen. Gesegmenteerde documenten moeten foutloos kunnen worden schoongemaakt in de eigen toepassing en de gebruikte vertaalgeheugens moeten probleemloos kunnen samenwerken met de eigen vertaalgeheugens.

De gemeenschappelijke bestandsindeling voor vertaalgeheugens is TMX. Alle serieuze CAT-pakketten kunnen elkaars TMX-vertaalgeheugens importeren en ook zelf universeel bruikbare TMX-geheugens exporteren. Een vertaler kan probleemloos met Wordfast in Trados-projecten meewerken als er gesegmenteerde documenten worden aangeleverd en/of als de vertaalde documenten niet-schoongemaakt geretourneerd moeten worden.