Microsoft tilt zijn spel in de AI-wereld naar een hoger niveau met de nieuwe Phi-3.5-serie, met drie geavanceerde modellen die zijn ontworpen voor verschillende taken. Deze modellen zijn niet alleen krachtig, ze zijn ook veelzijdig, waardoor het voor ontwikkelaars gemakkelijker wordt om alles aan te pakken, van basiscodering tot complexe probleemoplossing en zelfs visuele taken. Of u nu met beperkte middelen werkt of geavanceerde kunstmatige intelligentie De Phi-3.5-modellen hebben, ondanks hun vele mogelijkheden, wel wat te bieden. Hieronder volgt een kort overzicht.
Microsoft’s Phi-3.5-modellen ontrafelen
De nieuwste release van Microsoft, de Phi 3.5-serie, introduceert drie geavanceerde AI-modellen: Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct en Phi-3.5-vision-instruct. Elk model is ontworpen om specifieke behoeften aan te pakken, van basisredeneringen tot geavanceerde multimodale taken.
Alle drie Microsoft Phi-3.5-modellen zijn beschikbaar onder de MIT-licentie, waarmee ontwikkelaars de modellen met minimale beperkingen kunnen gebruiken, aanpassen en distribueren. Deze open-sourcebenadering ondersteunt brede acceptatie en stimuleert innovatie in verschillende toepassingen en onderzoeksdomeinen.
Phi-3.5 Mini Instruct: Efficiënt en compact
De Microsoft Phi-3.5 Mini-instructies model is ontworpen om uitzonderlijk goed te presteren in omgevingen met beperkte rekenkracht. Met 3,8 miljard parameters is het afgestemd op taken die sterke redeneercapaciteiten vereisen, maar geen uitgebreide rekenkracht. Getraind op 3,4 biljoen tokens met behulp van 512 H100-80G GPU’s gedurende 10 dagen.
Belangrijkste kenmerken:
- Parameters: 3,8 miljard
- Contextlengte: 128k-tokens
- Primaire use cases: Codegeneratie, wiskundige probleemoplossing, logisch redeneren
- Prestatie: Ondanks zijn kleinere formaat, toont het concurrerende prestaties in meertalige en multi-turn conversationele taken. Het blinkt uit in benchmarks zoals RepoQA, die long-context code understanding meet, en overtreft daarmee andere modellen van vergelijkbare grootte zoals Llama-3.1-8B-instruct.
Het efficiënte ontwerp van Phi-3.5 Mini Instruct zorgt ervoor dat het robuuste prestaties kan leveren, terwijl het rekening houdt met resourcebeperkingen. Dit maakt het geschikt voor implementatie in scenario’s waar computationele resources beperkt zijn, maar hoge prestaties nog steeds vereist zijn.
Phi-3.5 MoE: Mix van experts in architectuur
De Microsoft Phi-3.5 MoE (mix van experts) model vertegenwoordigt een geavanceerde benadering van AI-architectuur door meerdere gespecialiseerde modellen in één te combineren. Het heeft een uniek ontwerp waarbij verschillende “experts” worden geactiveerd, afhankelijk van de taak, waardoor de prestaties in verschillende domeinen worden geoptimaliseerd. Getraind op 4,9 biljoen tokens met 512 H100-80G GPU’s gedurende 23 dagen.
Belangrijkste kenmerken:
- Parameters: 42 miljard (actief), waarvan 6,6 miljard actief gebruikt tijdens de werking
- Contextlengte: 128k-tokens
- Primaire use cases: Complexe redeneertaken, codebegrip, meertalig taalbegrip
- Prestatie: Het MoE-model presteert uitzonderlijk goed in code- en wiskundige taken en vertoont een sterk meertalig begrip. Het overtreft vaak grotere modellen in specifieke benchmarks, waaronder een opmerkelijke voorsprong op GPT-4o mini in de 5-shot MMLU (Massive Multitask Language Understanding) test.
De Phi-3.5 MoE-architectuur verbetert schaalbaarheid en efficiëntie door slechts een subset van parameters te activeren die relevant zijn voor een bepaalde taak. Hierdoor kan het model een breed scala aan toepassingen verwerken en tegelijkertijd hoge prestaties behouden in verschillende talen en onderwerpen.
Phi-3.5 Vision Instruct: Geavanceerde multimodale mogelijkheden
De Microsoft Phi-3.5 Vision-instructie model is ontworpen om zowel tekst- als beeldgegevens te verwerken, wat het een krachtig hulpmiddel maakt voor multimodale AI-taken. Het integreert geavanceerde beeldverwerking met tekstueel begrip en ondersteunt een verscheidenheid aan complexe visuele en tekstuele analysetaken. Getraind op 500 miljard tokens met behulp van 256 A100-80G GPU’s gedurende 6 dagen.
Belangrijkste kenmerken:
- Parameters: 4,15 miljard
- Contextlengte: 128k-tokens
- Primaire use cases: Beeldbegrip, optische tekenherkenning (OCR), diagram- en tabelbegrip, video-samenvatting
- Prestatie: Het Vision Instruct-model is gebaseerd op een combinatie van synthetische en gefilterde, openbaar beschikbare datasets en is daardoor uitstekend geschikt voor complexe visuele taken met meerdere frames. Het model biedt bovendien een uitgebreide analyse van visuele en tekstuele informatie.
Phi-3.5 Vision Instruct’s vermogen om zowel tekst als afbeeldingen te verwerken en te integreren maakt het zeer veelzijdig voor toepassingen die gedetailleerde visuele analyse vereisen. Deze mogelijkheid is met name waardevol voor taken met betrekking tot diverse gegevenstypen en -formaten.
Het Phi-3.5 Vision Instruct-model is ook toegankelijk via Azure AI-studio.