Mistral, een Franse AI-startup, heeft furore gemaakt in de AI-gemeenschap met de release van Mixtral 8x7B, het nieuwste open-source AI-model. Dit model heeft de aandacht getrokken omdat het mogelijk de prestaties van OpenAI’s GPT-3.5 en Meta’s Llama 2 overtreft. Het bedrijf hanteerde een unieke aanpak door zijn nieuwste grote taalmodel zonder pardon vrij te geven via een torrent-link op sociale media. Deze stap staat in schril contrast met de typische fanfare die gepaard gaat met AI-releases en laat de uitgesproken, hackerachtige houding van Mistral zien.
Mixtral 8x7B: een nieuwe AI-krachtpatser
Onlangs heeft Mistral een indrukwekkende $415 miljoen in een Serie A-financieringsronde, waardoor de waardering naar ongeveer $ 2 miljard is gestegen. Deze financiële groei onderstreept het succes en potentieel van het bedrijf in de AI-sector. Mixtral 8x7B maakt gebruik van een “mix van experts”-benadering en integreert verschillende modellen, die elk gespecialiseerd zijn in verschillende taken. Deze innovatieve techniek heeft geleid tot indrukwekkende prestaties, die GPT-3.5 en Llama 2 in verschillende benchmarks evenaren of zelfs beter presteren. Mistral heeft dit model online uitgebracht, gevolgd door een officiële blogpost waarin de mogelijkheden ervan worden beschreven, en bevestigd dat het beschikbaar is voor commercieel gebruik onder een Apache 2.0-licentie.
Kleine footprint: het kan op een Mac draaien
Een van de opvallende kenmerken van Mixtral 8x7B is de mogelijkheid om op niet-GPU-apparaten te draaien, waardoor de toegang tot geavanceerde AI-technologie mogelijk wordt gedemocratiseerd. Het model behaalt state-of-the-art resultaten onder open modellen, met sterke punten op het gebied van taalgeneratie over lange contexten en codegeneratie.
Voor degenen die AI niet op de voet volgen:
1) Een open source-model (gratis, iedereen kan het downloaden of aanpassen) is beter dan GPT-3.5
2) Het heeft geen veiligheidsleuningen
Er zijn goede dingen aan deze release, maar ook toezichthouders, IT-beveiligingsexperts, etc. moeten zich ervan bewust zijn dat de geest uit de fles is. https://t.co/nHvlNKaItw— Ethan Mollick (@emollick) 11 december 2023
AI-enthousiastelingen en professionals hebben Mixtral 8x7B snel geadopteerd, onder de indruk van de prestaties en flexibiliteit. Dankzij de kleine footprint van het model kan het worden gebruikt op machines zonder speciale GPU’s, inclusief de nieuwste Apple Mac-computers. Het gebrek aan veiligheidsleuningen is echter wel het geval, zoals opgemerkt door professor Ethan Mollick van de Wharton School zorgen geuit over inhoud die door andere modellen als onveilig wordt beschouwd.
6x sneller dan Llama 2 70B
Mixtral 8x7B valt op door zijn zes keer hogere inferentiesnelheid vergeleken met Lama 2 70B, dankzij de spaarzame modelarchitectuur en acht verschillende feedforward-blokken in de Transformer. Het ondersteunt meertalige mogelijkheden, uitstekende codegeneratie en een contextvenster van 32k. De waardering van Mistral steeg in slechts zes maanden naar ruim $2 miljard, wat het groeiende belang van grote Mixture of Experts-modellen in het AI-landschap benadrukt.
Open source zonder beperkingen
Mixtral 8x7B, een open-sourcemodel, blijkt een game-changer te zijn. Het presteert niet alleen beter dan sommige Amerikaanse concurrenten, zoals Meta’s Llama 2-familie en OpenAI’s GPT-3.5, maar biedt ook snelle en efficiënte prestaties. De open source-beschikbaarheid van het model staat in contrast met de closed-sourcebenadering van OpenAI en sluit aan bij Mistral’s toewijding aan een “open, verantwoordelijke en gedecentraliseerde benadering van technologie”.
Het model van Mistral is een hoogwaardige, spaarzame mix van expertmodellen (SMoE) met open gewichten, gelicentieerd onder Apache 2.0. Het heeft superieure prestaties laten zien op de meeste benchmarks vergeleken met de Llama 2 70B, waardoor zes keer snellere gevolgtrekkingen werden bereikt. Deze efficiëntie markeert de Mixtral 8x7B als het sterkste model met open gewicht in termen van kosten en prestaties.