Volgens de beste schattingen, ten noorden van 7.000 talen worden tegenwoordig wereldwijd gesproken. Rond Ongeveer 400 talen hebben meer dan een miljoen sprekers. Aangezien sommige talen, met name Engels, digitaal lijken te domineren, is er eigenlijk een enorme behoefte aan tools die in verschillende talen kunnen werken en diverse taken kunnen uitvoeren.
Kunstmatige intelligentie en natuurlijke taalverwerking, een tak van de computerwetenschap, zijn al tientallen jaren bezig met het ontwikkelen van tools die precies dat kunnen. De afgelopen jaren zijn er talloze tools ontstaan op basis van meertalige modellen voor natuurlijke taalverwerking (NLP). Deze modellen dienen als Rosetta Stone voor het informatietijdperk, waardoor computers naadloos tussen talen kunnen schakelen. Ze bieden niet alleen vertaling, maar ondersteunen ook een verscheidenheid aan toepassingen, zoals sentiment- en inhoudsanalyses.
Meertalige NLP heeft daarom een belangrijke rol te spelen in de toekomst. Het kan worden gebruikt voor machinevertaling of voor het analyseren van berichten op sociale media in verschillende talen om sentiment te bepalen, wat kan worden gebruikt om marketingstrategieën of klantenservice te informeren. Meertalige NLP kan ook contentaanbevelingen op streamingdiensten ondersteunen of klantenservice beschikbaar maken in meerdere talen. Het kan nieuwsinhoudsanalyse aansturen of vertaling van medische dossiers op schaal mogelijk maken. Kortom, veel taken die ooit onmogelijk leken — bijvoorbeeld het vertalen van de medische dossiers van een Frans ziekenhuis naar het Engels — zijn mogelijk met meertalige NLP.
Sommigen zien de opkomst van meertalige NLP ook als een kracht voor de democratisering van data, waardoor content en services die ooit in slechts een paar talen beschikbaar waren, voor iedereen toegankelijk worden. En meertalige NLP blijft zich ontwikkelen, zelfs met niet-tekstuele data.
Van mens en machine: recente ontwikkelingen in meertalige modelarchitecturen
Natuurlijke taalverwerking heeft diepe wortels. De Engelse wiskundige en computerwetenschapper Alan Turing beschreef het potentieel van computers om natuurlijke taal te genereren in zijn baanbrekende essay uit 1950 “Computerapparatuur en intelligentie.” NLP ontwikkelde zich gestaag in de daaropvolgende decennia, en meertalige NLP begon zich snel te ontwikkelen in de jaren 2000. Echter, enkele van de meest significante vooruitgangen in meertalige modelarchitecturen hebben plaatsgevonden in het afgelopen decennium.
Sommige namen van deze modellen zijn bekend bij bijna iedereen die ooit met vertalen heeft gewerkt. DiepLis bijvoorbeeld eigendom van DeepL SE, gevestigd in Keulen, Duitsland, en vertrouwt op zijn eigen algoritme in combinatie met convolutionele neurale netwerken om vertalingen tussen 33 talen en dialectenDit is een bekend voorbeeld van meertalige NLP, dat voor het eerst werd gelanceerd in 2017.
Natuurlijk is er ook ChatGPTgelanceerd door OpenAI uit San Francisco en gebaseerd op het Generative Pre-trained Transformer basismodel 3.5, dat later werd geüpgraded naar versie 4. GPT 3.5 en 4 behoren tot de grootste taalmodellen die er zijn. Ze zijn getraind op enorme datasets, waardoor ze grote hoeveelheden tekstgegevens kunnen onderzoeken, complexe patronen in taal kunnen vastleggen en tekst van hoge kwaliteit kunnen produceren.

Deze meertalige NLP is massaal overgenomen voor taalvertaling, sentimentanalyse en vele andere doeleinden. GPT 3.5 en GPT 4 zijn toegankelijk gemaakt via een API. In 2018 introduceerden onderzoekers bij Google een taalmodel genaamd Bidirectional Encoder Representations from Transformers of (BERT). Het model omvatte een transformer encoder-architectuur en wordt door het bedrijf gebruikt om zoekopdrachten op zijn platform beter te begrijpen en om relevantere informatie in query’s terug te sturen. Het model wordt getraind via gemaskeerde tokenvoorspelling en next-sentence-voorspelling.
Verschillende verwante modellen hebben het BERT-model geïnnoveerd, zoals Robertawaarmee hyperparameters worden gewijzigd, de pretrainingsdoelstelling voor de volgende zin wordt verwijderd en training met grotere minibatches mogelijk wordt.
Om niet achter te blijven, publiceerde Facebook AI een model genaamd XLM-R in 2019waarin het de eerder genoemde RoBERTa trainde op een meertalige dataset bestaande uit ongeveer honderd talen uit CommonCrawl-datasets.
De wetenschappers die de tool beschrijven, merkten op dat het goed presteert in talen met kleinere datasets, zoals Swahili en Urdu, die beide tientallen miljoenen sprekers hebben. Ze merkten ook op dat het presteert in cross-lingual understanding, waarbij een model wordt getraind op één taal en vervolgens wordt gebruikt met een andere taal zonder dat er meer trainingsdata nodig zijn.
Doorlopende uitdagingen en voorgestelde oplossingen
Hoewel meertalige NLP zich de afgelopen jaren razendsnel heeft ontwikkeld, moet het wel met verschillende obstakels omgaan. Eén daarvan is simpelweg taalkundige diversiteit.
Het maken van zulke modellen gaat niet alleen over het leveren van naadloze vertalingen. Talen kunnen regionaal verschillen of meer afhankelijk zijn van context, en slang kan ook veranderen. Dat betekent dat NLP-modellen continu verbeterd moeten worden om relevant te zijn.
Bovendien zijn sommige talen gewoon niet zo goed vertegenwoordigd in termen van digitaal commentaar, en met die datasets is het makkelijker om een model te trainen. Kleinere gemeenschappen die bijvoorbeeld niet-Latijnse alfabetten gebruiken, vallen er met name buiten.
Een derde en nogal intrigerende uitdaging betreft code-switching, waarbij communityleden tussen talen kunnen wisselen. Denk aan een Engelse dichter die plotseling uitgebreid iets in het Frans citeert of een Japanse schrijver die zijn proza opfleurt met Engelse verwijzingen. Als een model de taal als Japans herkent, hoe beheert het dan die Engelse segmenten in de tekst?
Er zijn ook problemen rond toegang tot bronnen en vooroordelen. Gezien de computationele middelen die nodig zijn om meertalige NLP’s te bereiken, zullen alleen de machtigste bedrijven ter wereld de middelen kunnen verzamelen om ze te creëren? Of is er een manier om ze toegankelijker te maken voor onderzoekers en organisaties? En als datasets grotere talen of gemeenschappen bevoordelen, hoe kun je er dan voor zorgen dat sprekers van kleinere talen goed vertegenwoordigd zijn?
Ten slotte is er ook het alomtegenwoordige probleem van slechte data. Onderzoekers moeten toegeven dat hun brondata voor sommige talen mogelijk niet accuraat zijn, wat leidt tot een scheve output.

Oplossingen over de hele linie draaien om het investeren van meer tijd in onderzoek en samenwerking. Onderzoekers moeten werken aan het verkrijgen van betere data uit ondervertegenwoordigde talen terwijl ze hun modellen verbeteren. Sommigen hebben al zero-shot en few-shot learning-benaderingen gebruikt om situaties aan te pakken waarin weinig data beschikbaar is voor een taal.
Om vooringenomenheid te verminderen, werken ze ook aan het creëren van diverse trainingsdatasets en ontwikkelen ze statistieken om eerlijkheid te garanderen. Ontwikkelaars zijn zich er ook van bewust dat content in de ene taal aanstootgevend of ongepast kan zijn als deze slecht wordt weergegeven in een andere taal en pakken dit probleem aan.
Wat betreft toegankelijkheid zijn er kleinschaligere modellen ontstaan om het probleem van de hulpbronnen aan te pakken. Enkele van deze kleinere modellen zijn: Orca 2 van Microsoft En Phi2EleutherAI’s GPT-J En GPT-Neoen T5 Small, een afgeslankte versie van Google’s Text-to-Text Transfer Transformer (T5).
De toekomst van meertalige NLP
Terwijl ontwikkelaars op zoek zijn naar oplossingen voor de uitdagingen waarmee de huidige generatie modellen kampt, is er ook sprake van innovatie die de mogelijkheden van deze modellen volledig verandert.
Multimodale meertalige NLP zal precies dat doen door andere soorten data te verwerken, zoals afbeeldingen of andere audiovisuele data, samen met tekst. Het zou content potentieel kunnen analyseren op gezichtsuitdrukkingen of toon, bijvoorbeeld, wat gebruikt zou kunnen worden om machinevertaling of sentimentanalyse te verbeteren, en zo nieuwe dimensies van data toe te voegen aan de verwerkingspijplijn.
Er wordt ook gewerkt aan innovatie om bestaande spraakassistenten en meertalige chatbots te verbeteren. De spraakassistent Siri van Apple kan momenteel op vragen reageren in ongeveer 25 talen en dialectenterwijl Alexa van Amazon beschikbaar in negenDoor gebruik te maken van meertalige NLP kunnen deze spraakassistenten voor miljoenen mensen wereldwijd toegankelijk worden gemaakt.
Ook chatbots en virtuele agenten kunnen worden verbeterd. Niet alleen wat betreft de inhoud, maar ook door hun antwoorden contextueler en specifieker te maken, afgestemd op de vraag van de gebruiker. Dit zal op zijn beurt de gebruikerservaring verbeteren.
Naarmate de technologie evolueert, zal meertalige NLP zich uitbreiden van vertaling, sentimentanalyse en andere huidige toepassingen naar grootschaligere toepassingen. Online onderwijstools zouden bijvoorbeeld gemakkelijker beschikbaar kunnen zijn in verschillende talen.
Bedrijven kunnen hun onderzoek verbeteren, meer klanten bereiken en lokale markten beter bedienen dan ze nu doen, allemaal met behulp van meertalige NLP. Kortom, het is nog vroeg voor meertalige NLP. Gezien de snelheid van de ontwikkelingen, zal de toekomst er snel genoeg zijn.
Credits voor de hoofdafbeelding: Gratispik