Dataconomy NL
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy NL
Social icon element need JNews Essential plugin to be activated.
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Microsoft’s Adele wil uw AI een cognitief profiel geven

byKerem Gülen
14 mei 2025
in Research
Home Research

Moderne AI -modellen gaan met breakneck snelheid, maar de manier waarop we ze evalueren, heeft nauwelijks gelijke tred gehouden. Traditionele benchmarks vertellen ons of een model een test heeft geslaagd of gefaald, maar zelden inzichten biedt in waarom het presteerde zoals het deed of hoe het zou kunnen doen aan onbekende uitdagingen. Een nieuwe onderzoeksinspanning van Microsoft en zijn medewerkers stelt een rigoureus raamwerk voor dat opnieuw voorstelt hoe we AI -systemen evalueren.

AI evalueren door wat het moet weten

De kerninnovatie ingevoerd In deze studie is een raamwerk dat wordt genoemd Adele, kort voor geannoteerde-demandniveaus. In plaats van modellen op zichzelf te testen, scoort Adele zowel het model als de taak op dezelfde set cognitieve en op kennis gebaseerde schalen. Het resultaat is een uitgebreid profiel dat vastlegt hoe veeleisende taak is en of een specifiek AI -systeem de mogelijkheden heeft die nodig zijn om het aan te kunnen.

Adele werkt over 18 algemene schalenelk een belangrijk aspect van cognitieve of domeinkennis weerspiegelen, zoals redenering, aandacht of formele expertise van het onderwerp. Taken worden beoordeeld van 0 tot 5 op elke dimensie, wat aangeeft hoeveel dat vermogen bijdraagt ​​aan een succesvolle taakafwerking. Deze annotatie met dubbele kant creëert een soort compatibiliteitsscore tussen modellen en taken, waardoor het mogelijk is om resultaten te voorspellen en fouten uit te leggen voordat ze gebeuren.

Microsoft Adele wil uw AI een ccognitief profiel geven
Afbeelding: Microsoft

Wat Adele onderscheidt, is de basis in psychometrie – een veld dat zich bezighoudt met het meten van menselijke vaardigheden. Door deze menselijke beoordelingsinstrumenten voor AI aan te passen, hebben de onderzoekers een raamwerk gebouwd dat betrouwbaar kan worden gebruikt door geautomatiseerde systemen. Adele werd toegepast op 63 taken van 20 gevestigde AI -benchmarks, die meer dan dekken 16.000 voorbeelden. De onderzoekers gebruikten deze dataset vervolgens om te beoordelen 15 grote taalmodellen, waaronder marktleiders zoals GPT-4, LLAMA-3.1-405B en Deepseek-R1-Dist-Qwen-32B.

Het proces genereerde vaardigheidsprofielen voor elk model. Deze profielen illustreren hoe de succespercentages variëren met taakcomplexiteit in verschillende vaardigheden, en bieden een gedetailleerd begrip van modelmogelijkheden. Radar -kaarten visualiseren deze profielen over de 18 vaardigheidsdimensies, waarbij genuanceerde patronen worden onthuld die alleen ruwe benchmark -scores kunnen.

Deze uitgebreide evaluatie dook verschillende bevindingen op die de huidige veronderstellingen over AI -prestaties en vooruitgang betwisten.

  1. Eerst, Bestaande AI -benchmarks testen vaak niet wat zij beweren. Een benchmark die is ontworpen voor logisch redeneren, kan bijvoorbeeld ook kennis van nichedomeinen of hoge niveaus van metacognitie vereisen, waardoor de beoogde focus wordt verwaterd.
  2. Seconde, Het team ontdekte verschillende vermogenspatronen in grote taalmodellen. Redeneringsgerichte modellen overtroffen consequent anderen in taken met logica, abstractie en het begrijpen van sociale context. RAW -grootte alleen was echter geen garantie voor superioriteit. Voorbij een bepaald punt, het opschalen van modellen produceerden afnemende rendementen in veel bekwaamheidsgebieden. Trainingstechnieken en modelontwerp leken een grotere rol te spelen bij het verfijnen van prestaties in specifieke cognitieve domeinen.
  3. Derde, En misschien het belangrijkste is dat Adele nauwkeurige voorspellingen van modellensucces op onbekende taken mogelijk maakte. Door de taakvereisten te vergelijken met modelvaardigheden, bereikten de onderzoekers de nauwkeurigheid van de voorspelling tot 88 procent. Dit vertegenwoordigt een aanzienlijke sprong over black-box-benaderingen die afhankelijk zijn van inbedding of verfijnde scores zonder enig begrip van taakmoeilijkheden of model cognitie.
Microsoft Adele wil uw AI een ccognitief profiel geven
Afbeelding: Microsoft

Met behulp van de capaciteitsaanpassingsbenadering ontwikkelde het team een ​​systeem dat in staat is om AI-gedrag te voorspellen in een breed scala aan scenario’s. Of het nu wordt toegepast op nieuwe benchmarks of realistische uitdagingen, dit systeem biedt een gestructureerde en interpreteerbare methode om te anticiperen op storingen en het identificeren van geschikte modellen voor specifieke use cases. Dit voorspellende vermogen is met name relevant in omgevingen met hoge inzet waar betrouwbaarheid en verantwoording niet-onderhandelbaar zijn.

In plaats van AI te implementeren op basis van algemene reputatie of beperkte taakscores, kunnen ontwikkelaars en besluitvormers nu evaluaties op vraagniveau gebruiken om systemen te matchen met taken met veel meer vertrouwen. Dit ondersteunt niet alleen betrouwbaardere implementatie, maar ook beter bestuur, omdat belanghebbenden modelgedrag kunnen traceren terug tot meetbare vaardigheden en beperkingen.


Maakt uw super nuttige generatieve AI -partner stiekem uw baan saai?


De implicaties van Adele reiken verder dan onderzoekslaboratoria. Deze evaluatiemethode biedt een basis voor gestandaardiseerde, interpreteerbare beoordelingen die alles kunnen ondersteunen, van AI -onderzoek en productontwikkeling tot toezicht op regelgevend en publiek vertrouwen. Naarmate AI in het algemeen wordt ingebed in sectoren zoals onderwijs, gezondheidszorg en recht, wordt het begrijpen van hoe modellen zich buiten hun trainingscontext zullen gedragen niet alleen nuttig, maar ook essentieel.

Met het modulaire ontwerp van Adele kan het worden aangepast aan multimodale en belichaamde systemen, waardoor de relevantie ervan verder wordt uitgebreid. Het sluit aan bij de bredere positie van Microsoft over het belang van psychometrie in AI en echoes oproepen in recente whitepapers voor transparantere, overdraagbare en betrouwbare AI -evaluatietools.

Op weg naar slimmere evaluatienormen

Voor al het optimisme rond funderingsmodellen is een van de dreigende risico’s het ontbreken van zinvolle evaluatiepraktijken geweest. Benchmarks hebben vooruitgang geboekt, maar ze hebben ook onze zichtbaarheid beperkt tot wat modellen daadwerkelijk begrijpen of hoe ze zich in onverwachte situaties kunnen gedragen. Met Adele hebben we nu een pad om dat te veranderen.

Dit werk herformuleert evaluatie niet als een checklist van scores, maar als een dynamische interactie tussen systemen en taken. Door prestaties te behandelen als een functie van de fit van de vraag, legt het de basis voor een meer wetenschappelijk, betrouwbaar en genuanceerd begrip van AI-mogelijkheden. Die basis is niet alleen van cruciaal belang voor technische vooruitgang, maar ook voor de verantwoorde acceptatie van AI in complexe menselijke contexten.


Uitgelichte afbeeldingskrediet

Tags: AIMicrosoftUitgelaten

Recent Posts

  • SoundCloud CEO geeft toe dat AI -termen niet duidelijk genoeg waren, geeft een nieuwe belofte uit
  • Klaar voor een chatgpt dat je echt kent?
  • AI -onderzoekstools kunnen meer problemen veroorzaken dan ze oplossen
  • Maakt uw super nuttige generatieve AI -partner stiekem uw baan saai?
  • Microsoft’s Adele wil uw AI een cognitief profiel geven

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

Follow Us

Social icon element need JNews Essential plugin to be activated.
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.