Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
Subscribe
No Result
View All Result
Dataconomy NL
No Result
View All Result

Instella is hier: AMD’s 3B-parameter-model neemt het op tegen LLAMA en Gemma

byKerem Gülen
8 maart 2025
in Artificial Intelligence, News
Home Artificial Intelligence

AMD heeft onthuld Instella, een familie van volledig open-source taalmodellen met 3 miljard parameters, vanaf nul getraind op AMD Instinct ™ MI300X GPU’s. Instella-modellen presteren beter dan bestaande open modellen van vergelijkbare maten en concurreren effectief met toonaangevende open-gewicht modellen, waaronder LLAMA-3.2-3B, Gemma-2-2B en Qwen-2.5-3B, inclusief hun instructie-afgestemde versies.

AMD onthult Instella: Open-source taalmodellen die beter presteren dan rivalen

Instella maakt gebruik van een autoregressieve transformatorarchitectuur bestaande uit 36 ​​decoderlagen en 32 aandachtshoofden, waardoor het langdurige reeksen tot 4.096 tokens kan verwerken. Het model maakt gebruik van een vocabulaire van ongeveer 50.000 tokens, beheerd door de OLMO -tokenizer, waardoor het bedreven is in het genereren en interpreteren van tekst in verschillende domeinen.

De trainingsprocedure voor Instella benadrukt samenwerking tussen AMD’s hardware en software -innovaties. Dit nieuwe model bouwt voort op de basis die is vastgesteld door AMD’s eerdere modellen met 1 miljard parameters, die overstapt van training op 64 AMD instinct MI250 GPU’s met 1,3 biljoen tokens naar het gebruik van 128 instinct Mi300X GPU’s met 4,15 biljoen tokens voor het huidige 3-miljard-parametermodel.

Instella-is-here-AMD-3B-parameter-model-Model-Takes-on-Llama-and-Gemma
Afbeelding: AMD

Door Instella te vergelijken met eerdere modellen, meldt AMD dat het niet alleen bestaande volledig open modellen overtreft, maar ook concurrerende prestaties behaalt tegen ultramoderne open-gewicht modellen, waardoor een belangrijke mijlpaal op het gebied van natuurlijke taalverwerking wordt gemarkeerd. Dit initiatief sluit aan bij de toewijding van AMD om geavanceerde technologie toegankelijker te maken en samenwerking en innovatie binnen de AI -gemeenschap te bevorderen.


AMD RX 9000 -prijzen kunnen ervoor zorgen dat u die RTX 5090 -aankoop heroverweegt


Instella -modelfasen en trainingsgegevens

Deze release bevat verschillende versies van de Instella -modellen, die elk verschillende trainingsfasen vertegenwoordigen:

Model Fase Trainingsgegevens (tokens) Beschrijving
Instella-3B-Stage1 Pre-training (fase 1) 4.065 biljoen Eerste fase pre-training om vaardigheid in natuurlijke taal te ontwikkelen.
Instella-3B Pre-training (fase 2) 57.575 miljard Tweede fase pre-training om probleemoplossende mogelijkheden te verbeteren.
Instella-3B-SFT SFT 8.902 miljard (x3 tijdvakken) Supervised verfijning (SFT) om instructievolle mogelijkheden mogelijk te maken.
Instella-Ilstruct DPO 760 miljoen Afstemming op menselijke voorkeuren en verbetering van chatmogelijkheden met directe voorkeuroptimalisatie (DPO).

In de multi-fase trainingspijplijn gebruikte de eerste pre-trainingsfase 4.065 biljoen tokens uit verschillende datasets, waardoor het begrip van het fundamentele taal werd vastgesteld. De daaropvolgende training op nog eens 57,575 miljard tokens verbeterde de prestaties van het model verder tussen gevarieerde taken en domeinen.

Tijdens het beëindigen van de beëindiging werd Instella-3B-SFT getraind met 8,9 miljard tokens, waardoor interactieve responsmogelijkheden werden verbeterd. De laatste fase, Instella-3B-instructie, onderging een uitlijningstraining met directe voorkeuroptimalisatie met behulp van 0,76 miljard tokens, zodat de output van het model is afgestemd op menselijke waarden en voorkeuren.

AMD heeft alle artefacten gemaakt die zijn geassocieerd met Instella-modellen volledig open-source, inclusief modelgewichten, trainingsconfiguraties, datasets en code, het bevorderen van samenwerking en innovatie in de AI-gemeenschap. Deze bronnen zijn toegankelijk via Knuffelen modelkaarten en Gitub repositories.


Uitgelichte afbeeldingskrediet: AMD

Tags: AIAMDInstella

Related Posts

Alphaevolve: Hoe Google’s nieuwe AI naar waarheid streeft met zelfcorrectie

Alphaevolve: Hoe Google’s nieuwe AI naar waarheid streeft met zelfcorrectie

15 mei 2025
Tiktok implementeert AI-gegenereerde ALT-teksten voor een betere accessibiliteit

Tiktok implementeert AI-gegenereerde ALT-teksten voor een betere accessibiliteit

15 mei 2025
YouTube’s AI weet nu wanneer je gaat kopen

YouTube’s AI weet nu wanneer je gaat kopen

15 mei 2025
SoundCloud CEO geeft toe dat AI -termen niet duidelijk genoeg waren, geeft een nieuwe belofte uit

SoundCloud CEO geeft toe dat AI -termen niet duidelijk genoeg waren, geeft een nieuwe belofte uit

15 mei 2025
Klaar voor een chatgpt dat je echt kent?

Klaar voor een chatgpt dat je echt kent?

14 mei 2025
Lightricks onthult 13B LTX Video -model voor HQ AI Video Generation

Lightricks onthult 13B LTX Video -model voor HQ AI Video Generation

14 mei 2025

Recent Posts

  • De impact van slimme stoffen op tactische kledingprestaties
  • Databricks wedt groot op serverloze postgres met zijn $ 1 miljard neon acquisitie
  • Alphaevolve: Hoe Google’s nieuwe AI naar waarheid streeft met zelfcorrectie
  • Tiktok implementeert AI-gegenereerde ALT-teksten voor een betere accessibiliteit
  • Trump dwingt Apple om zijn India iPhone -strategie te heroverwegen

Recent Comments

Geen reacties om weer te geven.
Dataconomy NL

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Sample Page

Follow Us

  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.