Image
Image

dr. Arjan van Hessen

Telecats

Ik zeg wat u denkt

Je herkent het wel: iemand zit je aan te kijken en zegt: volgens mij denk jij XX, waarna er een betoog komt waarin wordt verteld waar jij net aan zat te denken. Soms klopt dat, maar vaak ook niet en zat je met je gedachten heel ergens anders. Maar zou het nu niet mooi zijn als dit toch zou kunnen? Jij denkt ergens aan en de ander weet dat dan direct? Mmm… Ja, maar persoonlijk houd ik mijn gedachten toch liever voor mezelf, hoor ik u denken.

De mogelijkheid om gedachten te lezen lijkt nu een beetje vervuld te worden. Afgelopen week verscheen er een publicatie getiteld “Towards reconstructing intelligible speech from the human auditory cortex.” van het “Mortimer B. Zuckerman Mind Brain Behavior Institute” van de Columbia Universiteit in New York, waarin een onderzoek beschreven wordt waarvan de resultaten wel heel dicht in de buurt komen van gedachtenlezen.


Luister hier het item terug

Het onderzoek

Als we spreken of luisteren vertoont onze hersenactiviteit patronen van signalen. Als we deze patronen kunnen ontcijferen en omzetten in spraak, kunnen we horen wat iemand denkt. Onderzoekers van de Columbia Universiteit hebben een systeem ontwikkeld dat het denken vertaalt in begrijpelijke, herkenbare spraak, die ongekend is voor dit soort systemen. Dit doen ze door de hersenactiviteit die gepaard gaat met het horen van woorden via een DNN (Deep Neural Network) om te zetten in VoCoder-parameters, die worden omgezet in spraak. Een VoCoder is een computer algoritme dat spraak kan synthetiseren (kunstmatig produceren.
Image

Spectogram, een rij opeenvolgende weergave van de frequentieverdelingen in een geluidsignaal. Horizontaal staat de tijd, verticaal de frequenties. Klinkers hebben vooral veel energie in de lagere frequenties, sis-klanken (f,s) vooral veel energie in de hogere frequenties.

Deze doorbraak kan leiden tot nieuwe manieren voor computers om direct met de hersenen te communiceren. Het legt wellicht de basis voor het helpen communiceren van mensen die niet (meer) kunnen spreken als gevolg van ALS (amyotrofe laterale sclerose) of een beroerte.

Spreekpatronen, Deep Neural Networks (DNNs) en VoCoderparameters

De constatering dat spraak, daadwerkelijk uitgesproken of alleen maar in gedachte uitgesproken, bepaalde patronen in onze hersenen opwekt, is al decennia bekend. Onderscheidende en herkenbare signaal-patronen komen ook naar voren als we naar iemand luisteren die spreekt, of als we ons het luisteren voorstellen. Maar het was tot nu niet gelukt om die patronen echt te vertalen naar begrijpelijk en verstaanbare spraak; dat bleek veel moeilijker dan gedacht.

Hersengolven bestaan deels uit lage en deels uit hoge neurale frequenties en het was de vraag welke de relevante informatie bevatten. De resultaten tonen aan dat een DNN-model dat de VoCoder-parameters direct schat uit alle neurale frequenties, de hoogste subjectieve en objectieve scores haalt op een herkenningstaak.

Het experiment

Dr. Mesgarani, hoofdonderzoeker neurochirurg dr. Ashesh Dinesh Mehta van het "Northwell Health Physician Partners Neuroscience Institute" vroegen epilepsiepatiënten die een hersenoperatie hadden ondergaan om te luisteren naar door verschillende mensen uitgesproken zinnen. Tijdens dit luisteren werd de hersenactiviteit gemeten. Met de patronen van deze gemeten hersenactiviteiten werden de DNN's getraind. Vervolgens vroegen de onderzoekers diezelfde patiënten om te luisteren naar sprekers die cijfers tussen 0 en 9 voorlazen waarbij opnieuw de hersenactiviteiten gemeten werden. Die hersengolven werden door het getrainde DNN omgezet in parameters voor de VoCoder, die op zijn beurt de spraak weer synthetiseerde. Het eindresultaat was een robotachtige stem die een reeks getallen voorleest. Om de nauwkeurigheid van de opname te testen werd proefpersonen gevraagd de opname te beluisteren en aan te geven wat men hoorde. Natuurlijk, moderne spraaksynthese klinkt veel en veel beter, maar dit is spraak die gemaakt is op basis van onze hersengolven, opgewekt wanneer we naar de cijfers 0 t/m 9 luisteren.
Oude gesynthetiseerde spraak (0-9)
Nieuwe gesynthetiseerde spraak (0-9)
In het luisterexperiment bleek dat in 75% van de gevallen de luisteraars de gesynthetiseerde spraak correct konden verstaan: veel meer dan bij de pogingen waarbij het geluid niet door een DNN was opgeschoond. De gevoelige VoCoder en krachtige neurale netwerken maakten geluiden (spraak) die verrassend veel leken op de geluiden die de patiënten hadden gehoord.

TOEKOMST

Van cijfers naar woorden naar zinnen

Nu dit redelijk lijkt te werken, zijn de onderzoekers van plan om meer gecompliceerde woorden en vervolgens zinnen te gaan testen. Bovendien willen ze dezelfde testen uitvoeren op hersensignalen die worden “uitgezonden” wanneer een persoon niet luistert naar echte spraak maar zelf in gedachte spreekt (monologue intérieur).

Droom

Het uiteindelijke doel ligt voor de hand: een soort implantaat waarop dit systeem is geïnstalleerd waarmee de verbale gedachten, dat wil zeggen de in gedachten uitgesproken spraak van de drager van zo’n implantaat direct vertaald worden in al-dan-niet uitgesproken woorden. Met dit implantaat zou iedereen die door letsel of ziekte zijn spreekvaardigheid heeft verloren, opnieuw mogelijkheid hebben om verbinding te maken met de wereld om zich heen.

Het uitspreken is handig in een gesprek met andere mensen, maar met dit systeem kun je ook andere dingen doen, zonder de stap van het uitspreken. Zo zou je jouw tekst direct op het scherm kunnen krijgen zonder tussenkomst van een spraakherkenner of zou je de domotica om je heen rechtstreeks opdrachten kunnen geven als “doe de gordijnen dicht” of “zet de thermostaat op 18 oC”.

Vragen

Het beschreven resultaat is behoorlijk gaaf, maar roept ook wel een aantal vragen op. Wat heeft men nu precies gemeten? Is het de reactie van de hersenen op een binnenkomend spraaksignaal en zo ja op welk niveau? Is het de audio of is het de “vertaling” die de hersenen maken van het gehoorde signaal? En hoe zit het met de taal die de patiënten spreken? Geven de hersenen dezelfde patronen te zien wanneer een tweetalig iemand dezelfde cijfers hoort in zijn of haar twee talen, bijvoorbeeld acht en otto? Hoe reageert men op nonsens woorden of op woorden uit een andere taal die de luisteraar niet kent? Kortom: een fascinerend onderwerp waar we nog jaren veel mooi onderzoek naar kunnen doen.
 

Bronnen

Het oorspronkelijke, nog niet gereviewde artikel "Towards reconstructing intelligible speech from the human auditory cortex" kan hier worden gedownload
Deze blog is gebaseerd op het oorspronkelijke artikel en een blog hierover op Techxplorer.