‘Ik ben zo enthousiast over AI, ik zou het wel van de daken willen schreeuwen. Maar er zit een goede rem op, ik blijf wel kritisch.’

23 september 2024  
Illustratie in de Scribit.Pro van twee mensen die koffie drinken.

Een interview met Ferry Molenaar, die samen met Scribit.Pro, een AI-gegenereerde audiodescriptiestem liet maken van zichzelf.

In navolging van supermarkt Aldi ontwikkelde ook Scribit.Pro een stem die door AI (artificial intelligence) is gegenereerd. De winkelketen verving dit voorjaar vaste stemartiest Diederik Ebbinge voor een stem die met behulp van kunstmatige intelligentie is gecreëerd. Tien medewerksters van Aldi stonden model voor deze stem. Wij van Scribit.Pro gingen de uitdaging aan en ontwikkelden een kunstmatige stem op basis van geluidsopnamen van onze vaste zakenpartner Ferry Molenaar – ook stemacteur. Doel: onderzoeken of AI de productie van toegankelijke video kan verbeteren. Kan Scribit.Pro een kunstmatige voice-over ontwikkelen die videocontent van een levensechte, natuurlijk klinkende audiodescriptie voorziet?

Hoog tijd om eens met Ferry te praten. Hoe kijkt hij, als geluidsprofessional en enthousiast gebruiker van media en technologie, aan tegen kunstmatige intelligentie? En speelt zijn visuele beperking daar nog een rol in? Welke rol denkt hij dat AI kan spelen in videotoegankelijkheid?

Ferry Molenaar (34) houdt zich bezig met het opnemen en publiceren van geluid. Hij maakt podcasts en audiotours en is in te huren als voice-over. Ferry is blind; door de oogaandoening aniridie is hij zijn zicht kwijtgeraakt toen hij 23 was. Scribit.Pro en Ferry werken regelmatig samen. Hij is een enthousiaste gebruiker van audiodescriptie. Maar ook als blinde creatief ondernemer zet hij regelmatig zijn ervaringsdeskundigheid in. Ons partnerschap heeft al tot veel mooie dingen geleid, zoals De Beeldspieker, de meest toegankelijke podcast van Nederland. Hierin bezoekt Ferry vaderlandse cultuurinstellingen en krijgen hij en zijn luisteraars een auditieve beleving van een collectie of tentoonstelling. Voor de jongste samenwerking onderzochten Scribit.Pro en hij of het mogelijk was een AI-gegenereerde versie van zijn stem te maken die als audiodescriptie zou kunnen dienen.

Je bent een grootverbruiker van audiodescriptie. In hoeverre heeft een audiodescriptie voor jou invloed op hoe jij dat betreffende product beleeft? 

‘Audiodescriptie heeft ontzettend veel invloed op mijn beleving. Ik ben premium lid van YouTube, zoveel kijk ik. En over het algemeen bekijk ik video's waarin veel gesproken wordt, omdat ik het dan makkelijk kan volgen. Zo ben ik fan van Mattias Krantz, die piano’s sloopt – op de meest creatieve manieren. De vlogger vervangt de hamers van een piano door echte hamers, of maakt een piano waterproof, giet ‘m dan vol water en kijkt dan hoe het instrument vervolgens klinkt. Hij stemt een hele piano naar dezelfde noot en belt dan een docent voor pianolessen, maar alle toetsen klinken hetzelfde. Hilarisch. Maar ik zou het gezicht van die pianoleraar wel willen zien. Ik volg deze content nu al met veel plezier, maar als een beeldbeschrijving dergelijke details kon benoemen, zou het nog leuker zijn. Dat is het gat dat audiodescriptie voor mij opvult. 

Taalgebruik, stemgeluid en intonatie van een audiodescriptie zijn ook van belang voor een beleving. Ik vind dat de beeldbeschrijving moet passen bij het product. Als een video spannend wordt, of sarcastisch, mag de audiodescriptie dat ook wel worden, maar wel op een passende manier. Je voegt iets toe aan het product en daarmee kun je het verhaal maken of breken. Vooral voor online video vind ik dat van belang, omdat een YouTube-video om een klein detail viral kan gaan. Wanneer ik dat detail mis, valt er voor mij weinig lol te beleven aan zo’n video.

‘Bij de synthetische Xander heb ik aan een half woord genoeg.’

Tot een jaar geleden was ik zeer tevreden met synthetische stemmen. Dit zijn de stemmen die ik dagelijks hoor bij voorleessoftware en de voice-overfunctie op mijn telefoon, maar het zijn ook de stemmen die Scribit.Pro inzet voor audiodescriptie. Het voordeel: geef zo’n stem honderd keer dezelfde zin en het zal honderd keer hetzelfde klinken. Een ander voordeel is dat ik deze stemmen inmiddels zo goed ken, dat ik ze steeds sneller kan zetten. Het is dan nauwelijks meer te verstaan, maar toch weet je als blinde gebruiker wat er gezegd wordt. Zo heb ik bij Xander (een veelgebruikte synthetische stem) aan een half woord genoeg, haha. Er zijn ongetwijfeld gebruikers die hetzelfde ervaren met de stemmen van Scribit.Pro. Toch vrees ik, in het geval van de video’s van Mattias Krantz, dat een standaard synthetische audiodescriptie zo’n hele video zou slopen.’

Tijd voor een menselijke variant van kunstmatige stemmen, dus. Waarvoor we, ironisch genoeg, de hulp van kunstmatige intelligentie moeten inschakelen. Hoe sta je tegenover AI? In hoeverre wordt die houding bepaald door je werk als geluidsprofessional en hoe leidend is je visuele beperking daarin?

‘Het liefst zou ik het van de daken schreeuwen, zo enthousiast ben ik over AI. Maar er zit een heel goede rem op. Ik blijf ook heel voorzichtig. Ik ben razend enthousiast en de ontwikkelingen zijn al erg ver, maar ik wil er ook niet door weggedragen worden. Het kan ons helpen, maar ook niet meer dan dat. Het gaat de wereld niet overnemen. Kunstmatige intelligentie is eigenlijk gewoon voorspellend denken. En daarin gaan nu nog ontzettend veel dingen mis. Daarom wil ik ook de regie in handen blijven houden. Het is belangrijk dat wij als mens tussen AI en de realiteit staan. Zolang wij op de regisseursstoel blijven zitten en AI-systemen kunnen melden dat ze iets niet goed doen, of opnieuw moeten doen, zal het wel goedkomen. 

Op dit moment zijn er al zo’n zeven punten waarop kunstmatige intelligentie mijn dagelijkse werktaken overneemt of verbetert. Denk aan het schrijven van nieuwsbrieven of LinkedIn-berichten; klusjes die niet tot mijn favoriete bezigheden behoren en waar ik helemaal niet goed in ben. Brainstormen met ChatGPT is ook fantastisch leuk, ik heb het standaard openstaan. AI kan daarnaast de meest slechte geluidsopname opkalefateren tot studiowaardige kwaliteit. Of een titel voor een nieuwe podcast aandragen die ik zelf nooit had kunnen bedenken. Kortgezegd vult het mijn tekortkomingen aan. En ik blijf altijd de eindredacteur, die vertelt of ‘ie het met AI eens is. 

‘Ik heb ChatGPT standaard openstaan.’

In antwoord op de vraag hoe leidend mijn visuele beperking is, zou ik willen zeggen dat die beperking juist steeds minder leidend wordt. Mijn blindheid is leidend richting AI, die mij in staat stelt dingen te doen die ik voorheen niet kon doen. Steeds vaker is de gedachte: dat gaan we gewoon even doen. Ook al ben ik blind. AI heeft me laatst geholpen met het vervangen van het neuswiel van mijn robotstofzuiger. Voorheen koste mij dat een intensief uur googelen. Nu heeft ChatGPT mij erdoorheen geloodst. Ik moet eerst drie keer herhalen dat ik blind ben en niets kan met visuele aanwijzingen, maar op een gegeven moment zit ik zelf aan dat ding te prutsen en heb ik gewoon het neuswiel vervangen. En dan heb ik er ook nog eens lol in gehad.’

Kun je iets meer vertellen over het AI-experiment dat je samen met Scribit.Pro hebt gedaan?

‘Momenteel gebruikt Scribit.Pro synthetische stemmen voor de audiodescriptie van videocontent. Het idee van het experiment was om te kijken of een door AI-gegenereerde stem op basis van mijn stemgeluid een prettig(er) klinkende beeldbeschrijving zou opleveren. We hebben stemmateriaal verzameld en ingevoerd in ElevenLabs, een AI-audiogenerator. Dat AI-model heeft van al die data een stem gemaakt. Mijn stem dus, maar ook weer niet. Drie dagen lang heb ik beduusd door mijn huis rondgelopen en hoorde ik mezelf onophoudelijk zeggen: ‘Het is echt eng.’ Tot ik ook die zin op een gegeven moment invoerde in ElevenLabs. Toen werd het pas echt eng, haha. Tweeëneenhalf jaar terug heb ik al eens een synthetische stem van mijn eigen stem laten maken, maar dat leek nergens op. Ik klonk alsof ik een handdoek had opgegeten. Maar nu hebben we een stem kunnen maken waarbij ik echt mezelf hoor. Het lijkt niet op mij, het ís echt mij. Toch is het ook weer niet zo volmaakt dat het mij kan vervangen in mijn werk als voice-over. Dat is een hele opluchting. Maar voor Scribit.Pro kan het wél een serieuze vervanger worden. Het levert een natuurlijker en prettiger klinkende audiodescriptie op, tegen prijzen die je nog altijd laag kunt houden.’

Hoe zou Scribit.Pro AI kunnen inzetten in de productie van videotoegankelijkheid?

‘De kloon die van mijn stem is gemaakt bevat gevoel en intonatie en is daarmee een serieuze concurrent voor synthetische audiodescriptiestemmen. Sowieso verwacht ik dat AI het vak van beeldbeschrijving voor een deel van Scribit.Pro kan en zal overnemen. Voor Scribit.Pro is het interessant om een eigen AI-model te ontwikkelen dat geleerd kan worden om video te beschrijven. Het AI-model moet daarnaast geleerd worden te letten op de context van een video: ook het onderwerp, doeleinde, de opdrachtgever en de doelgroep moeten meegenomen worden in de aanpak. Uiteraard blijft Scribit.Pro te allen tijde niet alleen leerkracht en eindredacteur, maar ook de poortwachter.’

Wat zou voor jou een gewenste ontwikkeling zijn binnen AI, op professioneel gebied, of op persoonlijk vlak? Heb je een droom op het gebied van kunstmatige intelligentie?

‘Eerlijk gezegd is mijn droom al realiteit: een AI-assistent waarmee ik over straat kan lopen, die mij bijstaat met de informatie die ik nodig heb om van A naar B te komen. Wanneer ik nu de ingang van een winkel zoek, moet ik een vrijwilliger bellen die voor mij kijkt waar de deur is. Ik verwacht dat kunstmatige intelligentie dit zal overnemen, met bijvoorbeeld real time beschrijvingen van de omgeving. Ik hoop dat AI de plek kan innemen van assistive technology. Dergelijke AI bestaat al, maar moet nog uitgerold worden. Dus mijn grootste wens staat te gebeuren. Maar als het zover is, is de stabiliteit – en dus betrouwbaarheid – ervan wel van het allergrootste belang. Nu crashen veel AI-modellen nog te pas en te onpas. Als ik AI vraag mij een seintje te geven wanneer het verkeerslicht op groen springt, maar er is een serveroverload, dan kan ik dus niet op dat systeem vertrouwen. We moeten daarom nooit compleet afhankelijk worden van AI. Bij een mondiale computercrash zouden we dan zo weer in de tijd van de jagers en verzamelaars zitten. Ik wil, als het nodig blijkt, zelf kunnen weten of het stoplicht op groen springt. Dus dat AI blinde en slechtziende verkeersgebruikers zou kunnen assisteren, betekent niet dat de gemeente daarom de rateltikkers op kan doeken.’ 

‘Ik denk – en hoop – dat AI de plek kan innemen van assistive technology.’

Laten we hopen dat beleidsmakers het belang hiervan blijven inzien. 

‘Zullen wij professionals elkaar, hier en nu, dan beloven altijd tussen AI en de werkelijkheid te blijven staan? We kunnen bang zijn voor de gevolgen van een wereld die wordt overgenomen door kunstmatige intelligentie, maar we kunnen ook gewoon zeggen: dat laten we niet gebeuren. Mooi. Hebben we hierbij zomaar even de wereld gered van de ondergang.’ 

Lees meer over ons experiment met een door AI-gegenereerde audiodescriptiestem.

Lees ons blog over AI in audiodescriptie.

Meer weten?

Schrijf je in op onze nieuwsbrief