Met de Gemini AI -assistent van Google staat nu audiobestanden uploads toe, waardoor gebruikers belangrijke informatie kunnen transcriberen, samenvatten en extraheren uit opnames. Deze nieuwe functie converteert maximaal 10 minuten spraakmemo’s, vergaderingen, lezingen en interviews in doorzoekbare documenten direct binnen de AI -omgeving. Uploads van audiobestanden worden ondersteund op zowel internet- als mobiele applicaties. Gebruikers hebben toegang tot de functie via de standaard bestand-upload-interface. Dit verschilt van de realtime spraakopdrachtverwerking van Gemini Live, omdat de nieuwe functie vooraf opgenomen audio verwerkt voor gegevensextractie en -analyse. Josh Woodward, Google’s VP van Gemini, verklaarde dat het uploaden van audiobestanden de meest gevraagde functie was van Gemini -gebruikers. Deze vraag benadrukt een behoefte aan gestroomlijnde audioverwerking binnen de AI -assistent.
Transcriptienauwkeurigheid en functie -integratie
Tijdens het testen heeft Gemini verschillende audiotypes nauwkeurig getranscribeerd, waaronder comedy -albumschetsen en telefoongesprekken, met slechts kleine fouten in naamherkenning. Het systeem identificeerde ook effectief belangrijke elementen en genereerde takenlijsten uit de audio-inhoud. De toevoeging van audioverwerking komt overeen met recente Gemini-integraties, zoals implementaties in verschillende apps, het testen van een kaartgebaseerde visuele interface en uitgebreide personalisatie-opties. Deze updates verbeteren de functionaliteit en gebruikerservaring van Gemini gezamenlijk.
Vergelijking met andere AI -assistenten
Hoewel de audiomogelijkheden van Gemini niet uniek zijn, zijn ze vergelijkbaar met functies van concurrenten zoals Chatgpt, die zijn Whisper -transcriptiemodel gebruikt. De Claude van Anthropic ondersteunt ook audioverwerking in bepaalde ontwikkelaarstools, en perplexiteit kan gegevens uit YouTube -video’s extraheren. Gemini wil zich concentreren op dagelijkse use cases voor een breed gebruikersbestand.
Geavanceerde audiogegevensverwerking
Naast eenvoudige transcriptie stelt Gemini gebruikers in staat om taalvereenvoudiging aan te vragen, sprekerspecifieke opmerkingen te extraheren, vragen te genereren uit audio-inhoud of studiegidsen te maken uit opgenomen discussies. Deze opties bieden hulpmiddelen om audio -informatie efficiënt te manipuleren en opnieuw te gebruiken.
Beperkingen van de audiofunctie
De huidige limiet van 10 minuten voor uploads van het audiobestand beperkt de toepasbaarheid voor langere opnames. Vrije gebruikers worden ook geconfronteerd met dagelijkse gebruikslimieten voor audioverwerking. Deze beperkingen kunnen van invloed zijn op gebruikers met uitgebreide behoeften aan audioverwerking. Google heeft geen specifieke prijzen vrijgegeven voor hoog-volume audioverwerking. Audioverwerking is echter geïntegreerd in het reguliere Gemini -quotum. Dit suggereert dat gebruikers hun gebruik moeten beheren om te voorkomen dat de toegewezen bronnen worden toegewezen.





