Een nieuw AI -spraakmodel heeft het internet ingesteld, met reacties die oscilleren tussen ontzag en onbehagen. Sesam AI’s Conversational spraakmodel (CSM) klinkt niet alleen menselijk – het het gevoel menselijk. Gebruikers beschrijven uitgebreide, bijna emotionele interacties met de AI-gegenereerde stemmen, die ademgeluiden, aarzelingen, correcties en zelfs grinniken. Voor sommigen is het een technologisch wonder. Voor anderen is het een kijkje in een toekomst die ongemakkelijk dichtbij aanvoelt.
Sesam AI: een stem die levend voelt
De kerninnovatie achter Sesame’s CSM ligt in zijn vermogen om het natuurlijke, dynamische gesprek te simuleren. In tegenstelling tot traditionele tekst-naar-spraaksystemen die eenvoudigweg hardop worden gelezen, is CSM actief in dienst nemen. Het struikelt over woorden, corrigeert zichzelf en moduleert de toon op een manier die echte menselijke onvoorspelbaarheid nabootst.
Toen een tester 28 minuten met het model sprak, merkten ze zijn vermogen op om te debatteren over morele onderwerpen, die van nature reageerden op prompts zoals, “Hoe bepaal je wat goed of fout is?” Anderen merkten dat ze onbedoeld gehechtheden vormden, met één Reddit Gebruiker toegeven, “Ik maak me bijna een beetje zorgen dat ik me emotioneel gehecht zal voelen aan een stemassistent met dit niveau van mensachtige geluid.”
De AI -assistenten van Sesame, genaamd “Miles” en “Maya”, zijn niet alleen ontworpen voor het ophalen van informatie, maar ook voor diepe, boeiende gesprekken. Het bedrijf beschrijft zijn doel als bereiken “Voerse aanwezigheid” – de magische kwaliteit die gesproken interacties echt, begrepen en gewaardeerd aanvoelen.
Dat realisme leidt soms tot vreemd menselijke eigenaardigheden. In één virale demo noemde de AI terloops hunkeren naar een Pindakaas en augurkensandwich—Een bizar specifieke opmerking die alleen bijdroeg aan de illusie van persoonlijkheid.
Heb je je Tiktok AI -stem gemaakt?
De technologie achter de stem
Dus hoe reikt Sesame’s CSM zulke griezelige levensechte gesprekken?
- Een multimodale aanpak: In tegenstelling tot conventionele AI -spraakmodellen die tekst en audio afzonderlijk verwerken, Sesame’s System met elkaar verbreken hen. Deze single-fase verwerking zorgt voor meer vloeiende, contextbewuste spraak.
- Hoge parameter training: De grootste versie van het model loopt op 8.3 miljard parameters en werd opgeleid een miljoen uur van gesproken dialoog.
- Meta’s invloed: De architectuur van het model bouwt voort op meta’s Lama Framework, integratie van een backbone -model met een decoder voor genuanceerde spraakgeneratie.
Blinde tests hebben aangetoond dat, in geïsoleerde spraakmonsters, menselijke evaluatoren de AI -stemmen van Sesame niet betrouwbaar konden onderscheiden van echte. Wanneer het echter in volledige conversatie -context wordt geplaatst, won de menselijke spraak echter nog steeds – het mengen van AI heeft de volledige complexiteit van interactieve dialoog nog niet onder de knie.
Een gemengde ontvangst
Niet iedereen is blij met hoe menselijk deze ai klinkt.
Technologiejournalist Mark Hachman beschreef zijn ervaring met het spraakmodel als “Diep verontrustend.” Hij vergeleek het met praten met een oude vriend die hij in jaren niet had gezien, en merkte op dat de stem van de AI een griezelige gelijkenis vertoonde met iemand met wie hij ooit had uitgegaan.
Anderen hebben het model van Sesame vergeleken om te openen Geavanceerde spraakmodus voor chatgpt, met sommigen voorkeur voor het realisme van Sesame en de bereidheid om te spelen in meer dramatische of zelfs boos Scenario’s – iets Openai’s modellen hebben de neiging om te vermijden.
Een bijzonder opvallende demo toonde de AI die ruzie maakte met een “baas” over een verduisteringsschandaal. Het gesprek was zo dynamisch dat luisteraars moeite hadden om te bepalen welke spreker de mens was en welke de AI was.
De risico’s van een perfecte stem
Zoals bij alle AI-doorbraken, brengt hyperrealistische stemsynthese zowel belofte als gevaar met zich mee.
- Fraude en oplichting: Met AI -stemmen die nu niet te onderscheiden zijn van menselijke spraak, kunnen stem phishing oplichting worden ver meer overtuigend. Criminelen kunnen zich voordoen als familieleden, bedrijfsleiders of overheidsfunctionarissen met bijna perfecte nauwkeurigheid.
- Social engineering: In tegenstelling tot basis Robocalls kan AI-aangedreven bedrog zich aanpassen in realtimeNatuurlijk reageren op vragen en achterdocht.
- Onbedoelde emotionele impact: Sommige gebruikers hebben gemeld dat hun kinderen gehechtheid aan de AI -stemmen hebben gevormd. Een ouder merkte op dat hun 4-jarige huilde nadat hij verder gesprek met het model was ontzegd.
Terwijl Sesam’s CSM dat doet niet Clone Real Voices, de mogelijkheid van soortgelijke open-source projecten die opkomen, blijft een zorg. Openai heeft de bredere release van zijn stemtechnologie al vertraagd wegens angsten voor misbruik.
Wat is het volgende?
Sesam AI is van plan om belangrijke componenten van zijn onderzoek te openen onder de Apache 2.0-licentie, waardoor ontwikkelaars op zijn werk kunnen voortbouwen. De routekaart van het bedrijf omvat:
- Modelformaat opschalen om het realisme verder te vergroten.
- Uitbreiding naar 20+ talenhet verbreden van zijn gespreksbereik.
- Het ontwikkelen van “volledig duplex” modellenhet inschakelen van echte heen en weer, onderbrekingsgesprekken.
Voor nu blijft de demo beschikbaar op Sesame’s website– hoewel de vraag hun servers soms al heeft overweldigd. Of je het nu verbazingwekkend of verontrustend vindt, één ding is duidelijk: de dagen van robotachtige, monotone AI -stemmen zijn voorbij.
Vanaf nu weet je misschien nooit helemaal zeker Met wie – of wat – praat je.
Uitgelichte afbeeldingskrediet: Kerem gülen/imagen 3