Grote taalmodellen (LLMS) worden gevierd vanwege hun meertalige mogelijkheden, maar hoe verwerken ze eigenlijk niet-Engelse talen? Een recente studie genaamd “Denken meertalige LLMS in het Engels?“Door Lisa Schut, Yarin Gal en Sebastian Farquhar van de Universiteit van Oxford en Google Deepmind suggereert dat LLMS misschien meer Engels gericht is dan eerder gedacht. Hun bevindingen laten zien dat, ongeacht de invoer- of uitvoertaal, deze modellen de neiging hebben om te redeneren in een interne representatieruimte die het dichtst bij het Engels ligt voordat ze hun gedachten vertalen in de doeltaal.
Een op Engels gericht denkproces
LLM’s zijn getraind op enorme hoeveelheden meertalige gegevens, maar de dominante taal in hun trainingscorpus bepaalt vaak hoe ze informatie intern structureren. De studie analyseerde meerdere open-source modellen, waaronder LLAMA-3.1-70B, MIXTRAL-8X22B, Gemma-2-27B en AYA-23-35Bom te onderzoeken of deze systemen op een taal-agnostische manier worden verwerken of dat ze standaard een op Engels gerichte representatieruimte zijn.
Met behulp van een techniek genaamd de Logit -lensonderzoekers decoderen de latente representaties van deze modellen en ontdekten een opvallend patroon: bij het genereren van tekst in niet-Engelse talen, LLMS First Map semantisch belangrijke woorden (zoals zelfstandige naamwoorden en werkwoorden) naar hun Engelse equivalenten voordat ze omzetten in de doeltaal. Dit fenomeen werd waargenomen in meerdere talen, waaronder Frans, Duits, Nederlands en Mandarijn.
Bijvoorbeeld toen het model de Franse straf kreeg “Le Bateau naviguait en douceeur sur l’aau” (“De boot zeilde soepel op het water”), de interne representaties toonden aan dat woorden als water En boot werden eerst in kaart gebracht aan hun Engelse betekenissen voordat ze werden vertaald in het Frans. Echter, grammaticale elementen zoals voorzetsels en determiners bleven in de oorspronkelijke taal, wat suggereert dat alleen semantisch geladen woorden deze op Engels gerichte verwerking ondergaan.
AI verwerkt nu moleculaire simulaties: dankzij Mdcrow
Het stuurvector -experiment
Een ander belangrijk experiment in de betrokken studie activeringsbesturingeen techniek die wordt gebruikt om LLM -reacties te manipuleren door ze te steunen op specifieke concepten. De onderzoekers ontdekten dat stuurvectoren-matige representaties die de besluitvorming van het model begeleiden-aanzienlijk effectiever waren wanneer ze in het Engels zijn berekend dan in de invoer- of uitvoertaal. Dit ondersteunt verder het idee dat de kernredenen van het model plaatsvindt in een in het Engels uitgelijnde ruimte.
Toen een LLM bijvoorbeeld werd gevraagd om een zin te schrijven over dieren in het Duits, reageerde het model consistenter toen de stuurvector werd afgeleid van het Engelse woord dier in plaats van zijn Duitse tegenhanger Laag. Dit suggereert dat zelfs wanneer modellen vloeiende niet-Engelse tekst produceren, hun onderliggende logica gebonden blijft aan Engelse representaties.
Het Engels gerichte karakter van LLMS heeft zowel voordelen als nadelen. Aan de ene kant kunnen deze modellen goed presteren in meerdere talen, ondanks dat ze voornamelijk zijn getraind op Engelse gegevens. Aan de andere kant introduceert het vooroordelen en beperkingen:
- Lagere vloeiendheid in niet-Engelse talen: Modellen die zijn getraind met een Engels-georiënteerde structuur, hebben de neiging onnatuurlijke zinnen te produceren bij het genereren van tekst in andere talen. Dit kan hun outputgeluiden op een stelsel maken, met name in talen met aanzienlijk verschillende syntaxis en grammatica.
- Culturele en taalkundige vooringenomenheid: Aangezien de interne structuur Engels begunstigt, kunnen bepaalde talen ondervertegenwoordigd zijn, wat leidt tot oneerlijke nadelen in prestaties. Eerder onderzoek is al benadrukt Westerse vooroordelen In AI -modellen, en deze studie voegt een andere laag toe aan het probleem.
- Vertaalartefacten: Omdat modellen hun interne gedachten uit het Engels vertalen, kunnen ze genereren ongemakkelijke frasering of fouten Bij het werken met talen die geen directe Engelse equivalenten hebben voor bepaalde woorden of uitdrukkingen.
Vertonen alle LLM’s dit gedrag?
Interessant is dat niet alle modellen dezelfde mate van Engels gerichte verwerking vertoonden. AYA-23-35B, een model dat is opgeleid op 23 talen, toonde de minste hoeveelheid Engelse routeringterwijl Gemma-2-27B, voornamelijk getraind op Engels, liet het meest zien. Dit suggereert dat de mate van meertalige vaardigheid direct beïnvloedt of een model afhankelijk is van Engelse representaties.
Aanvullend, Kleinere modellen vertoonden een grotere neiging om standaard in het Engels te zijn, Waarschijnlijk vanwege hun beperkte vermogen om meertalige inbeddings efficiënt op te slaan. Grotere modellen, met meer parameters en trainingsgegevens, lijken een iets beter inzicht te hebben op meertalige semantiek, hoewel de Engelse bias nog steeds overblijft.
Kan LLMS echt meer dan meer dan denken?
De bevindingen van de studie dagen de veronderstelling uit dat LLMS in een echt werkzaam is Taal-agnostische manier. In plaats daarvan suggereren ze dat meertalige AI is Nog steeds fundamenteel gevormd door de dominante taal in zijn trainingscorpus. Dit roept belangrijke vragen op voor AI -ontwikkelaars en onderzoekers:
- Moeten trainingsdatasets worden geherstructureerd om meer evenwichtige meertalige representaties te promoten?
- Hoe kunnen we de Engelse vooringenomenheid verzachten om de vloeiendheid en billijkheid in verschillende talen te verbeteren?
- Zijn er alternatieve architecturen die taalonafhankelijke representaties beter kunnen coderen?
Het aanpakken van de Engels gerichte bias in LLMS zal cruciaal zijn om zich echt te ontwikkelen meertalig, cultureel bewust systemen. Onderzoekers suggereren potentiële verbeteringen zoals:
- Training op meer diverse gegevens: Het opnemen van een breder scala aan talen tijdens de pretraining kan helpen om een meer evenwichtige representatieruimte te ontwikkelen.
- Verbetering van cross-linguale besturing: Het ontwikkelen van betere methoden voor het sturen van LLMS in niet-Engelse talen kan hun prestaties in verschillende taalcontexten verbeteren.
- Nieuwe architecturen verkennen: Toekomstige AI -modellen kunnen mechanismen bevatten Decentraliseer taalrepresentatiesom ervoor te zorgen dat redeneren en besluitvormingsprocessen zijn Echt taal-agnostisch.
Voor nu is één ding duidelijk: hoewel meertalige AI indrukwekkende vooruitgang heeft gemaakt, is de manier waarop het ‘denkt’ nog steeds diep verbonden is met het Engels. Het begrijpen van deze bias is de eerste stap in de richting van het creëren van eerlijkere, effectievere AI -systemen voor wereldwijde gebruikers.
Uitgelichte afbeeldingskrediet: Kerem gülen/ideogram