Apple MM1 is geen chip maar een multimodale AI

Op een discrete manier heeft het onderzoeksteam van Apple dat gedaan een document gepubliceerd wat licht werpt op de vorderingen van het bedrijf op het gebied van MM1, een reeks geavanceerde multimodale grote taalmodellen. Deze modellen zijn ontworpen voor een verscheidenheid aan toepassingen, waaronder gevolgtrekking uit natuurlijke taal, ondertiteling van afbeeldingen en het visueel beantwoorden van vragen. Deze onthulling geeft aan dat Apple, traditioneel terughoudend over zijn AI-ondernemingen, terwijl zijn concurrenten AI toejuichten als de toekomst van de technologie, niet alleen bezig is met een inhaalslag, maar ook op het punt staat het tempo in de industrie te bepalen.

Wat is de omvang van Apple MM1?

“In dit werk bespreken we het bouwen van performante multimodale grote taalmodellen (MLLM’s). We laten zien dat voor grootschalige multimodale voortraining het gebruik van een zorgvuldige mix van afbeeldingsbijschriften, interleaved afbeeldingstekst en alleen-tekstgegevens cruciaal is voor het bereiken van state-of-the-art resultaten van enkele shots over meerdere benchmarks, vergeleken naar andere gepubliceerde pre-trainingsresultaten”, luidt het document.

Het document gaat dieper in op MM1 en karakteriseert het als een robuust geheel van multimodale modellen, dat tot 30 miljard parameters kan ondersteunen. Het benadrukt hun uitzonderlijke prestaties, verfijnd over een spectrum van multimodale benchmarks, waardoor deze modellen in de voorhoede van fundamentele AI-technologieën worden geplaatst. Volgens het team van Apple vertegenwoordigen multimodale grote taalmodellen (MLLM’s) een aanzienlijke evolutie ten opzichte van traditionele LLM’s, en beschikken ze over verbeterde mogelijkheden.

De onderzoekers bij Apple zijn ervan overtuigd dat ze een belangrijke mijlpaal hebben bereikt in het trainen van modellen om zowel afbeeldingen als tekst te interpreteren. Ze verwachten dat hun inzichten de gemeenschap aanzienlijk zullen helpen bij het ontwikkelen van modellen die steeds grotere datasets efficiënter en betrouwbaarder kunnen verwerken. Ondanks de veelbelovende inzichten die in het artikel worden gedeeld, blijft de praktische toepassing en het testen van Apple MM1 echter in het verschiet, waarbij de toegang tot het model zelf nog moet worden opengesteld voor externe evaluatie.

appel mm1 — De onderzoekers bij Apple zijn ervan overtuigd dat ze een belangrijke mijlpaal hebben bereikt in het trainen van modellen om zowel afbeeldingen als tekst te interpreteren (Afbeelding tegoed)

De toekomst van Apple’s onderneming in grote taalmodellen, met name MM1, verkeert in een evenwicht, met speculaties rond de ontwikkeling door het bedrijf van een LLM-framework dat intern ‘Ajax’ wordt genoemd, onderdeel van een ambitieuze investering van $ 1 miljard in AI-onderzoek en -ontwikkeling. Om dit vuur nog verder aan te wakkeren, doen er geruchten de ronde over de overname door Apple van de startup DarwinAI eerder dit jaar, een stap die ogenschijnlijk bedoeld is om deze inspanningen te versterken.

De CEO van Apple, Tim Cook, verbrak de jarenlange stilte van het bedrijf over zijn AI-ambities tijdens een post-winstoproep in februari en verklaarde:

“Wij beschouwen AI en machine learning als fundamentele technologieën, en ze zijn een integraal onderdeel van vrijwel elk product dat we leveren. We zijn verheugd om later dit jaar de details van ons lopende werk op dat gebied te delen.”

Meer nog, Apple heeft onlangs de AI-mogelijkheden van zijn nieuwe MacBook Air M3 gedemonstreerd, wat een indicatie is van de belangrijke rol die AI zal spelen in zijn toekomstige aanbod. In een strategische spil koos het bedrijf ervoor om te ontbinden Project Titaan vorige maand, waarbij de focus werd verlegd naar snelgroeiende gebieden als kunstmatige intelligentie, wat een herijking van de innovatieprioriteiten aangaf.

Uitgelichte afbeeldingscredits: Kerem Gülen/Midjourney