AI-gegenereerde stemmen in videotoegankelijkheid: Scribit.Pro test met voice-over voor audiodescriptie gemaakt met behulp van kunstmatige intelligentie

9 september 2024  
Illustratie in de Scribit.Pro kleuren van een man die aan knoppen schuift om een lamp aan te krijgen.

Afgelopen voorjaar verving supermarktketen Aldi stemacteur Diederik Ebbinge voor een door AI-gegenereerde stem. De acteur en televisiemaker sprak jarenlang alle Aldi-spotjes in, maar wordt nu verruild voor een stem die is gecreëerd door middel van kunstmatige intelligentie (AI). Zo kan de supermarkt tijd en geld besparen. De klant zou hiervan profiteren. 

Aldi heeft stemopnamen gemaakt van tien vrouwelijke medewerkers en op basis van deze verzameling audio is een nieuwe, kunstmatige stem gevormd. Studio-opnames met echte personen worden hiermee overbodig, want deze AI-stem spreekt eenvoudig, direct en automatisch elke gewenste tekst uit.

Beluister de nieuwe stem hier.


Ons experiment met een AI-gegenereerde stem

Hierop ging Scribit.Pro het experiment aan: kunnen wij ook een AI-gegenereerde stem ontwikkelen? De insteek is wel een tikkeltje anders dan die van Aldi. Scribit.Pro maakt videocontent toegankelijk. Dit doen we onder meer door het toevoegen van audiodescriptie; een voice-over die een beeldbeschrijving geeft op de momenten waarop er in de video geen dialogen of andere belangrijke geluiden te horen zijn. Zo worden deze mediaproducties toegankelijk voor mensen met een visuele beperking. Ook voor gebruikers met cognitieve beperkingen of uitdagingen (zoals hersenletsel of autisme) kan audiodescriptie helpen bij een beter begrip van de content. 

Scribit.Pro maakt hiervoor gebruik van de synthetische stemmen van ReadSpeaker, de internationale koploper in tekst-naar-spraaktechnologie. De beeldbeschrijving is eenvoudig in de Scribit.Pro-editor te typen en het resultaat is direct te beluisteren. Na publicatie kan de eindgebruiker deze audiodescriptie als voice-over bij de video laten afspelen. Op deze manier kunnen wij snelle, 24 uursservice leveren, van hoge en constante kwaliteit. Bovendien kunnen de organisaties die bij ons klant zijn zo ook zelf video toegankelijk maken met onze software en zijn stemopnamen, geluidstudio’s of microfoons niet nodig. 

Ook al klinkt elk van deze stemmen natuurlijk en prettig (en voor veel blinde of slechtziende gebruikers ook bekend); het blijft een kunstmatige stem. Met geluidsprofessional Ferry Molenaar, die werkt als Podcast Creator en stemacteur, ging Scribit.Pro de uitdaging aan: een audiodescriptiestem creëren, die eveneens kunstmatig is, maar toch ook menselijk klinkt, als het ware een kloon van zijn echte stem. 

We zijn de studio ingedoken en hebben diverse geluidsopnamen van Ferry’s stem gemaakt. Met deze input hebben we Elevenlabs, een AI-bedrijf gespecialiseerd in generatieve audio, de opdracht gegeven een stem te produceren. Binnen 2 dagen stond het resultaat klaar in de Elevenlabs omgeving.

Kun jij het verschil horen tussen een menselijke en kunstmatige stem?

Beluister hieronder zelf het resultaat. Deze video is een montage van vijf korte videofragmenten die door Scribit.Pro van audiodescriptie zijn voorzien. Elk van de vijf fragmenten is eenmaal ingesproken door Ferry zelf, en eenmaal van beeldbeschrijving voorzien door de AI-stem, die van Ferry’s stem gemaakt is. Deze twee versies van hetzelfde fragment zijn na elkaar te horen. Kun jij het verschil horen tussen een echte stem en kunstmatige intelligentie?

Het resultaat van ons experiment met AI

We namen de proef op de som en vroegen mensen naar hun mening over de audiodescripties in bovenstaande video. Opvallend was dat alle personen die we ondervroegen, aangaven een voorkeur voor Ferry’s echte stem te hebben. Maar we ontdekten ook dat het niet altijd even makkelijk bleek om de stemmen van elkaar te onderscheiden. Soms was er verwarring over welke stem de menselijke stem is, en welke de AI-stem. Bij ieder fragment waren er respondenten die de AI-stem aanzagen voor de echte stem. In het algemeen wordt de kunstmatig gegenereerde stem als prettig en levensecht ervaren en vinden de ondervraagden de stem van goede kwaliteit. 

En wat vinden we zelf van ons experiment? Scribit.Pro onderzoekt momenteel verschillende manieren waarop AI ons van dienst kan zijn in het proces van videotoegankelijkheid. Kunnen wij ons product en onze dienstverlening nog verder verbeteren door de inzet van kunstmatige intelligentie? Is het, in dit geval, mogelijk AI een stem te laten maken die prettig en menselijk klinkt, en die een beeldbeschrijving kan geven van videocontent? 

Het antwoord is: ja, dat is ons gelukt!  De stem die in onze test met kunstmatige intelligentie tot stand gekomen is, klinkt als een mens van vlees en bloed, maar het is een kunstmatige stem die elke gewenste tekst ten gehore kan brengen. Net als de huidige synthetische stemmen in onze software dat kunnen. In het Nederlands, Engels of Duits, maar ook in het Fins of Chinees. Soms maakt de kunstmatige stem een misser in uitspraak of intonatie, maar de stem klinkt verrassend levensecht en ligt prettig in het gehoor. 

We blijven onderzoeken of kunstmatige intelligentie in te zetten is in de productie van audiodescriptie, transcriptie, ondertiteling en gebarenvertalingen. Zo kunnen we het proces van videotoegankelijkheid optimaliseren en werken aan een inclusieve toekomst die voor iedereen toegankelijk is.

Wil je meer lezen over ons onderzoek naar AI in videotoegankelijkheid, waarin we kijken of kunstmatige intelligentie onze dienstverlening kan verbeteren, versnellen en verfijnen? 

Lees het blog over AI in audiodescriptie.

Lees ons interview met Ferry Molenaar over AI.

Meer weten?

Schrijf je in op onze nieuwsbrief