AI-gegenereerde voice-over voor audiodescriptie: hoe beoordelen eindgebruikers en beeldbeschrijvers de audiodescriptiestem die Scribit.Pro door AI liet maken?
Momenteel doet Scribit.Pro een veelomvattend onderzoek naar kunstmatige intelligentie. We bekijken en testen meerdere manieren waarop AI het product en de service van Scribit.Pro verder zou kunnen verbeteren.
Scribit.Pro maakt van video’s toegankelijke video’s. Door audiodescriptie, transcriptie, ondertiteling voor doven en slechthorenden en/of gebarenvertalingen aan videocontent toe te voegen, wordt de inhoud ervan begrijpelijk(er) voor een zo groot mogelijke groep gebruikers. Zo hebben ook mensen met een beperking toegang tot deze informatie en wordt onze samenleving inclusiever.
Om onze dienstverlening te blijven optimaliseren, onderzoeken we de mogelijkheden van kunstmatige intelligentie in ons werkproces en in de software die we gebruiken. Kan AI de productie van videotoegankelijkheid vergemakkelijken, versnellen en verbeteren?
Samen met geluidsprofessional, podcastmaker en stemacteur Ferry Molenaar, hebben we een experiment uitgevoerd. We hebben AI gevraagd een stem te maken op basis van Ferry’s werkelijke stem. Deze kunstmatige stem is in te zetten als een instant voice-over voor de audiodescriptie van video. Dit kan op dezelfde manier als nu gebeurt met de synthetische stemmen die Scribit.Pro momenteel gebruikt. De nieuwste voice-over voor de reclamecampagnes van winkelketen Aldi is op eenzelfde manier tot stand gekomen.
Het eindresultaat: hoe klinkt de AI-versie van een menselijke stem?
Zelf zijn we positief verrast over het eindresultaat. De door AI-gegeneerde stem van Ferry klinkt als Ferry: levensecht. En de stem is zeker inzetbaar als voice-over in onze audiodescripties. Maar hoe bevalt onze beeldbeschrijvers en eindgebruikers deze gekloonde stem? We hebben een aantal van hen gevraagd naar hun mening. In een kleine test hebben we vijf video’s als onderzoeksmateriaal genomen. Van elk van de vijf video’s hebben we twee versies gemaakt: een versie met een beeldbeschrijving die Ferry heeft ingesproken, en een versie met een audiodescriptie door de AI-stem die van Ferry’s stem is gemaakt. Aan de respondenten de taak de menselijke stem van de kunstmatige stem te onderscheiden. En dat bleek nog knap lastig. Velen was het niet altijd duidelijk welke voice-over van Ferry zelf was en welke van AI. Bij meer dan één video zagen sommigen mensen de kunstmatige stem aan voor de stem van Ferry. Bij één van de video’s hebben we beide versies door AI laten genereren. Maar geen van de geënquêteerden heeft opgemerkt dat de menselijke stem in dit voorbeeld ontbrak. Over het algemeen vindt men de stem prettig en levensecht klinken, wat ook blijkt uit deze onderzoeksresultaten. Alleen de intonatie – en de incidentele misser in uitspraak – verraadt in sommige gevallen de computerstem. Ook zeggen alle mensen die meededen aan ons onderzoek een voorkeur te hebben voor Ferry’s echte stem, hoewel de kunstmatige stem volgens enkelen in sommige gevallen wat minder gehaast klinkt.
Tegelijkertijd is met dit experiment duidelijk geworden dat een door AI gekloonde stem niet altijd als dusdanig wordt herkend en vaak voor een werkelijk menselijke stem wordt aangehoord. Dat is natuurlijk goed nieuws voor Scribit.Pro: we willen kijken of AI videotoegankelijkheid kan verbeteren. Een synthetische stem die net zo klinkt als de menselijke stem naar wie ‘ie gemodelleerd is, is zeker een mooie stap in de richting van een nog beter product: beter van kwaliteit en beter afgestemd op de wensen van onze opdrachtgevers, zakenpartners en eindgebruikers. Samen maken we de toekomst toegankelijk.
Lees ook het blog over Scribit.Pro’s onderzoek naar AI in audiodescriptie.
Lees het uitgebreide interview met Ferry Molenaar over zijn gedroomde toepassingen van AI.
Duik verder in dit experiment met AI en ontdek of jij het verschil hoort tussen mens en machine.