Apple beweert dat de M5 AI-modellen bijna 30% sneller uitvoert dan de M4

Appel wel positionering de nieuwe M5-aangedreven MacBook Pro is een veel capabelere machine voor het uitvoeren en experimenteren met grote taalmodellen, dankzij upgrades aan zowel het MLX-framework als de GPU Neural Accelerators die in de chip zijn ingebouwd. Voor onderzoekers en ontwikkelaars die steeds liever rechtstreeks op Apple-siliciumhardware werken, presenteert het bedrijf de M5-lijn als een betekenisvolle stap voorwaarts in de inferentieprestaties op apparaten, vooral voor LLM’s en andere werklasten die worden gedomineerd door matrixbewerkingen. Centraal in deze inspanning staat MLX, het open-source array-framework van Apple dat speciaal is ontworpen voor de uniforme geheugenarchitectuur. MLX biedt een NumPy-achtige interface voor numeriek computergebruik, ondersteunt zowel training als gevolgtrekking voor neurale netwerken, en laat ontwikkelaars naadloos schakelen tussen CPU- en GPU-uitvoering zonder gegevens over verschillende geheugenpools te pendelen. Het werkt op alle Apple Silicon-systemen, maar de nieuwste macOS-bèta ontgrendelt een nieuwe versnellingslaag door gebruik te maken van de speciale matrixvermenigvuldigingseenheden in de GPU van de M5. Deze neurale versnellers worden zichtbaar via TensorOps in Metal 4 en geven MLX toegang tot prestaties die volgens Apple cruciaal zijn voor werklasten die worden gedomineerd door grote tensorvermenigvuldigingen. Bovenop MLX zit MLX LM, een pakket voor het genereren en verfijnen van tekst dat de meeste taalmodellen ondersteunt die op Hugging Face worden gehost. Gebruikers kunnen het via pip installeren, chatsessies starten vanaf de terminal en modellen rechtstreeks op het apparaat kwantiseren. Kwantisering is een kernfunctie: het converteren van een Mistral-model met 7B-parameters naar 4-bit duurt slechts enkele seconden, waardoor de geheugenvereisten dramatisch worden verkleind terwijl de bruikbaarheid op consumentenmachines behouden blijft.

Afbeelding: Appel

Om de voordelen van de M5 te demonstreren, heeft Apple verschillende modellen vergeleken, waaronder Qwen 1.7B en 8B (BF16), 4-bit gekwantiseerde Qwen 8B en 14B, en twee gemengde architecturen: Qwen 30B (3B actief) en GPT-OSS 20B (MXFP4). De resultaten zijn gericht op de tijd tot het eerste token (TTFT) en de generatiesnelheid bij het produceren van 128 extra tokens op basis van een prompt van 4.096 tokens. De neurale versnellers van de M5 verbeteren de TTFT aanzienlijk, waardoor de wachttijd minder dan 10 seconden bedraagt voor een compact 14B-model en minder dan 3 seconden voor een 30B MoE. Apple rapporteert TTFT-versnellingen tussen 3,3x en 4x vergeleken met de vorige M4-generatie. Daaropvolgende tokengeneratie – die wordt beperkt door geheugenbandbreedte in plaats van rekenkracht – levert kleinere maar consistente winsten op van ongeveer 19-27%, in lijn met de 28% toename in bandbreedte van de M5 (153 GB/s versus 120 GB/s op M4). De tests laten ook zien hoeveel modelcapaciteit comfortabel in het uniforme geheugen past. Een MacBook Pro van 24 GB kan een 8B-model in BF16 of een 30B MoE op 4-bit hosten met vrije ruimte, waardoor het totale gebruik in beide gevallen onder de 18 GB blijft. Apple zegt dat dezelfde acceleratorvoordelen verder reiken dan taalmodellen. Het genereren van een afbeelding van 1024×1024 met FLUX-dev-4bit (12B-parameters) gaat bijvoorbeeld ruim 3,8x sneller op een M5 dan op een M4. Terwijl MLX functies blijft toevoegen en modelondersteuning blijft verbreden, gokt het bedrijf erop dat een groter deel van de ML-onderzoeksgemeenschap Apple-silicium niet alleen als een ontwikkelomgeving zal behandelen, maar als een levensvatbaar platform voor gevolgtrekkingen en experimenten.

Uitgelicht beeldtegoed