Elevenlabs, een AI-startup die wordt erkend voor zijn audio-generatie-mogelijkheden, heeft gelanceerd Een stand-alone spraak-to-text-model genaamd Scribe. De lancering volgt op een aanzienlijke financieringsronde van $ 180 miljoen, waardoor de waardering van het bedrijf wordt verhoogd tot $ 3,3 miljard.
Elevenlabs lanceert Scribe: een nieuw AI-spraak-to-text-model
Scribe ondersteunt meer dan 99 talen en behaalt een woordfoutenpercentage van minder dan 5% in meer dan 25 talen, waaronder Engels, dat een geclaimde nauwkeurigheidspercentage van 97% heeft. Andere talen in de uitstekende nauwkeurigheidscategorie zijn Frans, Duits, Hindi, Indonesisch, Japans, Kannada, Malayalam, Pools, Portugees, Spaans en Vietnamees. Extra talen worden geclassificeerd met variërende foutenpercentages van hoog (5% tot 10%) tot matig (25% tot 50%).
Video: elfs
Het nieuwe model presteert naar verluidt beter dan Google’s Gemini 2.0 Flash en Openai’s Whisper Large V3 in meerdere talen op basis van fleurs en gemeenschappelijke spraakbenchmarktests. Scribe is het eerste afzonderlijke spraakdetectiemodel van elflabs, dat eerder spraak-tot-tekstcomponenten had geïntegreerd in zijn AI Conversational Agent-platform.
Chatgpt Plus -abonnees genieten nu van diep onderzoeksfunctie
CEO Mati Staniszewski benadrukte het doel om het begrip van gesprekken te vergroten: “We werken aan manieren om weg te gaan van het alleen genereren van inhoud en het begrijpen en transcriberen van spraak,” zei hij. Het model beschikt over luidsprekerdagaaliteit, tijdstempels op woordniveau voor nauwkeurige ondertitels en automatisch taggen van non-verbale audio-evenementen.
Scribe is momenteel beperkt tot vooraf opgenomen audioformaten, met een realtime versie die naar verwachting binnenkort zal worden vrijgegeven. De prijzen voor schrijver zijn $ 0,40 per uur getranscribeerde audio, met een inleidende korting van 50% beschikbaar voor de eerste zes weken.

Benchmark -tests geven schrijver aan dat de laagste woordfoutenpercentages voor verschillende talen worden geregistreerd, waarbij 98,7% in het Italiaans en 96,7% in het Engels wordt bereikt. Belangrijkste kenmerken zijn de mogelijkheid om luidsprekers te differentiëren in opnames met multi-sprekers, gedetailleerde tijdstempels en de detectie van niet-spraakgebeurtenissen.
Voor ondernemingsgebruikers dient Scribe als een schaalbaar transcriptietool, gunstig voor sectoren die afhankelijk zijn van documentatie, het voldoen aan transcripties en toegankelijkheidsinitiatieven. De komende realtime versie zou het nut in live communicatiescenario’s verder kunnen verbeteren.
De lancering van Scribe viel samen met de release van Hume AI’s octaaf, een aanpasbaar, LLM-aangedreven tekst-naar-spraakmodel op maat gemaakt voor het maken van inhoud. Elevenlabs beweert dat Scribe consequent overtrof dan concurrenten in transcriptienauwkeurigheid.
Scribe is rechtstreeks toegankelijk via de Elevenlabs -website of API, zodat gebruikers audio- of videobestanden kunnen uploaden voor opgemaakte transcripties. De gestructureerde output helpt integratie in verschillende applicaties en presenteert een concurrerende optie voor bedrijven die op zoek zijn naar zeer nauwkeurige transcriptiediensten.
Uitgelichte afbeeldingskrediet: elflabs