Google’s Gemini Live, aanvankelijk onthuld tijdens het Made by Google -evenement van vorig jaar, ontvangt belangrijke upgrades. Deze verbeteringen omvatten visuele overlays tijdens het delen van camera’s en een nieuw audiomodel dat is ontworpen voor meer natuurlijke gesprekken. De upgrades zijn bedoeld om Gemini een meer nuttiger en responsieve digitale assistent te laten leven.
Sinds de introductie, Gemini Live heeft verschillende verbeteringen gezien, met name de mogelijkheid om camerafeeds en schermen te delen. Google heeft nu een verbetering aangekondigd voor de camerafwijkingsmogelijkheden en een nieuw native audiomodel om de natuurlijkheid van interacties met de AI-chatbot verder te verbeteren.
Tijdens de presentatie op de aanstaande Google Pixel 10 -serie verstrekte Google details over aanstaande verbeteringen aan Gemini Live op Android. Een belangrijke functie is de toevoeging van visuele overlays die specifieke objecten in de camerafeed markeren. Deze visuele aanwijzingen nemen de vorm aan van witgekleurde rechthoeken rond de interessante objecten, waarbij het omliggende gebied enigszins gedimd is om prominentie te waarborgen.
De functie “Visual Guidance” is bedoeld om gebruikers te helpen bij het snel vinden en identificeren van items in het gezichtsveld van de camera. Voorbeelden van beoogde toepassingen zijn onder meer het markeren van de juiste knop op een machine, het identificeren van een specifieke vogel in een kudde of het bepalen van het juiste hulpmiddel voor een bepaald project. De functie strekt zich ook uit tot het geven van advies, zoals het aanbevelen van passend schoeisel voor een specifieke gelegenheid.
De visuele begeleidingscapaciteit kan ook meer uitdagende scenario’s beheren. Een Google Product Manager vertelde een persoonlijke ervaring tijdens een internationale reis waar ze moeite hadden met het interpreteren van parkeerborden, wegmarkeringen en lokale voorschriften. Met behulp van Gemini Live richtte de productmanager de camera op de scène en informeerde naar de toelaatbaarheid van parkeergelegenheid. Gemini Live raadpleegde vervolgens lokale regels, vertaalde de borden en benadrukte een gebied op straat met gratis parkeren voor twee uur.
Visuele begeleiding is direct beschikbaar in de Google Pixel 10 -serie en begint de uitrol naar andere Android -apparaten de volgende week. Uitbreiding naar iOS -apparaten is gepland in de daaropvolgende weken. Een Google AI Pro of Ultra -abonnement is niet nodig om toegang te krijgen tot de functie Visual Guidance.
Naast de visuele overlays implementeert Google een nieuw native audiomodel binnen Gemini Live. Dit model is ontworpen om meer responsieve en expressieve gesprekken te vergemakkelijken.
Het nieuwe audiomodel zal beter reageren op basis van de context van het gesprek. Bij het bespreken van een stressvol onderwerp zal het audiomodel bijvoorbeeld reageren met een rustiger en meer gemeten toon.
Gebruikers hebben controle over de spraakkenmerken van het audiomodel. Als een gebruiker het moeilijk vindt om de toespraak van Gemini bij te houden, kunnen hij het vragen om langzamer te spreken. Omgekeerd, wanneer de tijd beperkt is, kunnen gebruikers Gemini instrueren om zijn spraak te versnellen.
Het systeem kan ook verhalen afleveren vanuit specifieke perspectieven. Zoals Google in zijn blogpost verklaarde, kunnen gebruikers “Gemini vragen om je te vertellen over het Romeinse rijk vanuit het perspectief van Julius Caesar zelf, en een rijk, boeiend verhaal te krijgen, compleet met karakteraccenten.”
Dit artikel is om 19:50 uur ET bijgewerkt om verduidelijkingen te geven met betrekking tot het natuurlijke audiomodel en demo -activa uit de blogpost van Google op te nemen.





