Stemmen ontwikkelen bij Readspeaker

5 juli 2022  Gastblogger

Wil je jezelf voorstellen en uitleggen wat Readspeaker doet?

Mijn naam is Ludmila Menert en ik werk als linguïst of taalkundige bij ReadSpeaker. Mijn werk is heel divers. Ik begeleid audio-opnames met stemacteurs. Ik analyseer patronen en onregelmatigheden in verschillende talen en leg die vast. Ik controleer en corrigeer de labels die andere collega’s aan klanken toevoegen in onze spraakdatabases. En ik bedenk vaak hoe onze stemmen specifieke woorden of namen beter kunnen uitspreken. Dat is nodig omdat een computer niet alles kan weten. In de Eindhovense naam “Genderpark” zal onze stem “gender” op zijn Engels uitspreken, maar omdat het daar naar de rivier de Gender verwijst, moet het dus met de Nederlandse g van “gaan” worden uitgesproken.

ReadSpeaker ontwikkelt synthetische stemmen en ook producten waarin die stemmen gebruikt worden. Door de inzet van zelf ontwikkelde, toonaangevende technologie behoren onze stemmen tot de meest natuurlijke op de markt. Levensechte stemmen dus. Die kunnen worden gebruikt om met onze voorleeshulp websites, documenten, boeken of lesmateriaal toegankelijker te maken. De content wordt hardop voorgelezen, wat ondersteunend is voor website bezoekers met een leesbeperking. Onze oplossingen kunnen ook worden ingezet om een stem te geven aan bijvoorbeeld een app, apparaat of softwareprogramma. Scribit.Pro gebruikt onze stemmen om audiodescriptie toe te voegen aan video’s. De producten die we bouwen bieden tientallen talen en meer dan 100 verschillende stemmen en maken het ook nog eens mogelijk die stemmen sneller of langzamer te laten spreken, tekst die wordt voorgelezen te highlighten zodat je makkelijk mee kan lezen, en nog veel meer extra’s. ReadSpeaker is gevestigd in 15 landen en levert aan meer dan 10.000 klanten in 65 landen. Met meer dan 20 jaar ervaring loopt het team van ReadSpeaker experts voorop in tekst-naar-spraak.

Kun je uitleggen hoe de techniek van computerstemmen werkt?

Om te beginnen moet de computer weten WAT er gezegd moet worden, dus hoe de geschreven tekst in woorden omgezet moeten worden. Moet “112” als “honderdtwaalf” of als “één één twee” worden uitgesproken? Moet “file” als “fiele” of “fajl” klinken? En staat “bv” voor “bijvoorbeeld” of “bee vee”? Dan moeten we bepalen HOE de woorden moeten worden uitgesproken. Daarvoor gebruiken we een uitspraakwoordenboek, waarin een paar honderdduizend combinaties van spelling en uitspraak staan. De software haalt hier informatie over de uitspraak uit. Maar deze woordenboeken worden ook gebruikt om de software te trainen; de software leert zo wat de meest gangbare patronen zijn van spelling en uitspraak. Na enige training kan de software de uitspraak van woorden die NIET in het woordenboek staan voorspellen, zoals namen of woorden uit andere talen. De spraak zelf moet natuurlijk lijken op die van de stemacteur die voor de stem werd gebruikt. Want voor iedere stem wordt een fiks aantal uren spraak opgenomen met een stemacteur. Ook hier is sprake van het trainen van de synthetische stem op basis van een klankwoordenboek dat wordt opgebouwd met de opnames van de door de stemacteur uitgesproken woorden en zinnen.  

Wij kennen allemaal de computerstem die hakkelend spreekt, maar dat is inmiddels verleden tijd. Hoe is dit geëvolueerd?

Met de huidige technologie draait alles om zogenaamde machine learning, waarbij de computer weliswaar op basis van echte, natuurlijke spraak wordt getraind, maar uiteindelijk een volledig kunstmatig stemgeluid produceert met de zogenaamde vocodertechniek, je zou kunnen zeggen met een kunststem. De vorige generatie tekst-naar-spraakstemmen was anders. Daar werd de spraak opgebouwd uit zeer kleine fragmentjes spraak, die uit de database van opgenomen spraak werden gehaald en aan elkaar geplakt. De software zocht de juiste spraakfragmenten en moest die zodanig combineren dat het resultaat zo vloeiend mogelijk klonk. Ook al werd daarmee uiteindelijk behoorlijk hoge kwaliteit gehaald, je bleef soms de “minder gelukte” lasnaden tussen de spraakfragmentjes horen.

Zijn er stemmen van echte mensen gebruikt als voorbeeld voor de Readspeaker stemmen?

Dat is precies juist. Tegenwoordig worden de opnames van echte spraak “als voorbeeld” voor de digitale stem gebruikt, terwijl ze vroeger als het ware ook het bouwmateriaal van de digitale stem vormden. ​Hoe meer spraak met de stemacteur wordt opgenomen en ook hoe meer tijd en computerrekenkracht in de trainingen gaat zitten, hoe hoger de kwaliteit van de spraak van de gebouwde stem zal zijn. In de hoogste kwaliteit is de computerstem nauwelijks meer van de echte persoon te onderscheiden.

Hoe veel tijd kost het om een nieuwe stem te “ontwikkelen”?

Een basiskwaliteit stem kan al binnen een paar maanden klaar zijn. Maar voor een hogere kwaliteit hebben we meer tijd nodig, zowel voor de opnames als voor de verwerking en trainingen. En vooral voor het optimaliseren, waarbij meerdere cycli van verbeteringen en tests worden doorlopen.

Zijn er ook al kinderstemmen?

Die bestaan wel, maar het aanbod is niet overweldigend. Dat komt omdat het erg moeilijk is om kinderen, zeker jongere kinderen, voldoende spraakmateriaal te laten inspreken van een kwaliteit die hoog genoeg en vooral consistent genoeg is. Vaak wordt er gebruik gemaakt van opgenomen spraak van jongvolwassenen of een mix van spraakdatabases.

Zullen er nog nieuwe stemmen bijkomen? Bijvoorbeeld stemmen met accenten of dialecten?

Jazeker, we hebben van verschillende talen al een aanbod van meerdere varianten. Van het Engels o.a. Amerikaans, Brits, Indiaas, Schots en Zuid-Afrikaans. Ook ontwikkelen we “custom voices”, waarvoor de klant hun eigen stemacteur kiest, en dat kan iemand zijn met een regionaal accent.

Als er nieuwe woorden zijn moeten deze dan eerst worden ingesproken door een ‘echt’ persoon?

Nee dat is niet nodig, de computerstem kan op grond van de opgenomen spraak in principe alles uitspreken zoals de oorspronkelijke spreker dat zou hebben gedaan. Wel is het soms nodig om de uitspraak van zo’n nieuw woord te corrigeren, omdat de software die verkeerd voorspeld had. Daarom worden voortdurend nieuwe woorden, vooral eigennamen, aan onze uitspraakwoordenboeken toegevoegd. Dit zijn de meest recente toevoegingen die ik aan ons Nederlandse lexicon heb gedaan: Lviv, Charkiv, Marioepol…

Hoe spreken jullie namen uit…? Worden onbekende woorden en namen extra ingesproken?

De computer leert op basis van statistische patronen, dus de uitspraak van een naam die niet in ons uitspraakwoordenboek staat, zal ongeveer zo worden voorspeld, zoals een Nederlandse spreker dat zou doen op grond van de geschreven vorm. Alleen, een doorsnee Nederlandse spreker weet veel meer van de wereld dan er in onze woordenboeken staat. Zo luistert men naar het nieuws en weet bijvoorbeeld dat “Fauci” een Amerikaan en zijn naam als “fautsjie” wordt uitgesproken. Of dat “Angela” bijna altijd met de dzj van “jazz” wordt uitgesproken, maar niet als het om de oud-bondskanselier Angela Merkel gaat, waar je de g van “goal” hoort. Daarom moeten wij ons systeem voortdurend ‘bijscholen’.

Jullie portfolio biedt meerdere mannen- en vrouwenstemmen aan, die allemaal een naam hebben. Welke stem wordt het meest ingezet?

Onze meest ingezette stem op dit moment is Ilse. Dat is een zeer breed inzetbare stem met een neutrale, heldere klank en een hoge kwaliteit, want heel goed getraind.

Welke stem wordt het meest gebruikt man of vrouw?

Over het algemeen wordt er in Europa en Noord-Amerika vaker een vrouwenstem gekozen, maar de keuze hangt natuurlijk ook van de toepassing af. We merken ook dat klanten meer variatie willen en uit meerdere stemmen willen kunnen kiezen. Het is mogelijk dat de relatieve oververtegenwoordiging van vrouwenstemmen in tekst-naar-spraak-toepassingen te maken heeft met het feit dat computerstemmen momenteel veelal worden ingezet op het gebied van dienstverlening, zorg en ondersteuning. Vrouwenstemmen worden eerder geassocieerd met vriendelijkheid en servicegerichtheid, zodat men wellicht om die reden eerder een vrouwenstem kiest.

In hoeveel landen/talen zijn jullie actief?

ReadSpeaker is gevestigd in 15 landen en levert aan meer dan 10.000 klanten in 65 landen tekst-naar-spraakoplossingen. Er zijn meer dan 110 stemmen beschikbaar in ruim 35 talen. En we werken continu aan meer…. Recent was ik bezig met het Welsh, collega’s in het team werken aan het Catalaans, Hindi en Roemeens.

Tenslotte: heb jij ook een favoriete stem?

Misschien heel ouderwets, maar ik luister altijd met veel genoegen naar het vriendelijk correcte, onberispelijke maar niet te “posh” Britse Engels van onze Alice.

Schrijf je in op onze nieuwsbrief