Google heeft gelanceerd een nieuwe tool voor het genereren van AI-afbeeldingen genaamd Whisk, waarmee gebruikers visuele output kunnen creëren van bestaande afbeeldingen. Aangekondigd via een update op Google Labs, maakt Whisk gebruik van het Gemini-taalmodel voor beeldbegrip en de Imagen 3-beeldgenerator. Momenteel is het alleen beschikbaar in de VS
Google lanceert Whisk: AI-tool voor het creatief genereren van afbeeldingen
Whisk werkt door de ‘essentie’ van het geleverde beeld vast te leggen in plaats van deze rechtstreeks te reproduceren. Gebruikers voeren een afbeelding in samen met vooraf gedefinieerde stijlen, waaronder een sticker, een emaille pin en een knuffel, om een creatief gewijzigde uitvoer te ontvangen. Deze tool richt zich op brainstormen en snelle visualisaties, in plaats van op de uiteindelijke productie-inhoud. De simplistische interface helpt gebruikers bij het genereren van voorlopige concepten.

De geavanceerde editormodus, toegankelijk via de optie ‘Vanaf nul beginnen’, biedt gebruikers opties om details over onderwerp-, scène- en stijlcategorieën te specificeren. Gebruikers kunnen ook tekst toevoegen ter verfijning. Sommige uitkomsten sluiten echter niet nauw aan bij de verwachtingen van de gebruiker, zoals is gebleken tijdens het testen. Google waarschuwt dat Whisk de kenmerken van uitvoerafbeeldingen, zoals lengte, gewicht en kapsel, zal afwijken van de oorspronkelijke invoer.

Onder de motorkap bouwt de functionaliteit van Whisk voort op het vermogen van het Gemini-model om gedetailleerde bijschriften over de geüploade afbeelding te genereren. Deze bijschriften worden vervolgens door de Imagen 3-generator gebruikt om nieuwe beelden te creëren. Het proces onderstreept het doel van Whisk om creatieve vrijheid te bevorderen, waardoor gebruikers elementen in verschillende visuele formaten kunnen remixen.
Samen met de lancering van Whisk heeft Google Veo 2 geïntroduceerd, een nieuwe versie van zijn videogeneratiemodel. Deze nieuwste update demonstreert verbeterde mogelijkheden voor het genereren van video’s, waardoor inhoud van hoge kwaliteit wordt geproduceerd met een geavanceerd inzicht in de natuurkunde en menselijke bewegingen in de echte wereld. Tijdens het testen toonde Veo 2 een verminderde frequentie van ‘hallucinaties’, die doorgaans foutieve of onverwachte details in de gegenereerde inhoud met zich meebrengen.

Gebruikers kunnen specifieke filmstijlen of -kenmerken aanvragen in hun videoprompts, waardoor het detailniveau binnen de gegenereerde output wordt verbeterd, inclusief het aanvragen van video’s met 4K-resolutie. Video’s geproduceerd door Veo 2 illustreren de hoogwaardige filmische resultaten die nu haalbaar zijn en voldoen effectief aan verschillende gebruikersbehoeften.
Het Imagen 3-model heeft ook een upgrade gekregen, waardoor aanzienlijk helderdere en beter gecomponeerde beelden in een breed scala aan stijlen kunnen worden geproduceerd. Dit verbeterde model volgt nauwkeuriger gebruikersaanwijzingen en genereert ingewikkelde texturen. Door middel van gebruikerstesten met concurrerende modellen voor het genereren van afbeeldingen, behaalde Imagen 3 state-of-the-art resultaten.

Als onderdeel van Google’s inzet voor verantwoorde AI-ontwikkeling bevatten de resultaten van zowel Whisk als de nieuwste modellen een onzichtbaar SynthID-watermerk, dat helpt bij het voorkomen van verkeerde informatie. Deze focus op veiligheid gaat gepaard met een zorgvuldig uitrolproces. Gebruikers hebben toegang tot deze nieuwe mogelijkheden via Google Labs, waar ze zich kunnen aanmelden voor updates en functieverbeteringen.
Afbeeldingscredits: Googlen