Analysis of speech prosody using Variational Autoencoder bottleneck features : the Lombard effect

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-202106152746
Title: Analysis of speech prosody using Variational Autoencoder bottleneck features : the Lombard effect
Author: Suviranta, Rosa
Contributor: University of Helsinki, Faculty of Arts
Publisher: Helsingin yliopisto
Date: 2021
Language: eng
URI: http://urn.fi/URN:NBN:fi:hulib-202106152746
http://hdl.handle.net/10138/331119
Thesis level: master's thesis
Degree program: Kielellisen diversiteetin ja digitaalisten menetelmien maisteriohjelma
Master's Programme Linguistic Diversity in the Digital Age
Magisterprogrammet i språklig diversitet och digitala metoder
Specialisation: Fonetiikka
Phonetics
Fonetik
Abstract: Tämä on esi-tutkimus, jossa tutkitaan kuinka konditioitu konvolutionaalinen variationaa- linen autoenkooderi (KKVAE) oppii Lombard efektin sekä erilaisten fokus konditioiden välisen interaktion prosodiset piirteet. Lombard efekti on puheen mukauttamista ko- vaan taustahälyyn. Se ilmenee puhunnoksen intesiteetin nostossa, perustaajuuden, sekä keston muutoksissa. Fokus merkkaa puhunnoksen uutta informaatiota. Fokus tuotetaan painottamalla fokusoitua sanaa tai lauseen osaa. KKVAE koulutettiin suomenkielisen Lombard puhe korpuksen perustaajus– sekä puhe- käyrillä. Autoenkooderin kyky rekonstruoida prosodisia piirteitä arvioitiin statistisesti suoraan pullonkaulojen representaatioista. Tutkimus pyrki vastaamaan mikä on riittävä pullonkaulan dimensio prosodisten piirteiden analyysiin, kuinka hyvin pullonkaula oppii prosodiset piirteet ja miten autoenkooderi koodaa prosodiset piirteet pullonkaulaan. Tutkimuksessa saatiin selville, että kyseinen metodi pystyy tuottamaan uusia represen- taatioita jotka kvantifioivat prosodisia piirteitä sekä niiden keskinäistä vuorovaikutusta. Jopa matala dimensionaalisia pullonkauloja voidaan käyttää prosodisten piireteiden luo- kittelemiseen. Tutkimus ei kuitenkaan onnistunut määrittelemään parasta mahdollista pullonkaula dimensiota. Optimaalinen pullonkaula vaatii syvällisempää tarkastelua. Autoenkooderin kykyä oppia prosodiset piirteet arvioitiin tutkimalla generoituja näytteitä. Tulosten mukaan konditioitu konvolutionaalinen variationaalinen autokooderi oppii prosodiset piirteet hyvin. Uusien näytteiden laatu korreloi positiivisesti pullonkaulan dimension kanssa. Lisäksi tutkimuksessa selvitetiin pullonkaulojen koodausta. Kävi ilmi, että KKVAE koodaa pullonkaulat samankaltaisesti riippumatta opetus instanssista tai pullonkaulan dimensiosta. Lisäksi opittiin, että KKVAE oppi Lombard efektin parhaiten. Kuitenkin KKVAE oppi myös eri fokus konditiot tehokkaasti.This study is a preliminary study to verify how well a Conditioned Convolutional Variational Autoencoder (CCVAE) learns the prosodic characteristics of interaction between the Lombard effect and different focus conditions. Lombard speech is an adaptation to ambient noise manifested by rising vocal intensity, fundamental frequency, and duration. Focus marks new propositional information and is signalled by making the focused word more prominent in relation to others. A CCVAE was trained on the f0 contours and speech envelopes of a Lombard speech corpus of Finnish utterances. The model’s capability to reconstruct the prosodic charac- teristics was statistically evaluated based on bottleneck representations alone. The following questions were addressed: the appropriate size of the bottleneck layer for the task, the ability of the bottleneck representations to capture the prosodic characteris- tics and the encoding of the bottleneck representations. The study shows promising results. The method can elicit representations that can quantify prosodic effects of the underlying influences and interactions. The study found that even the low dimensional bottlenecks can conceptualise and consis- tently typologize the prosodic events of interest. However, finding the optimal bottleneck dimension still needs more research. Subsequently, the model’s ability to capture the prosodic characteristics was verified by investigating the generated samples. Based on the results, the CCVAE can capture prosodic events. The quality of the reconstruction is positively correlated with the bottleneck dimension. Finally, the encoding of the bottlenecks were examined. The CCVAE encodes the bottleneck representations similarly regardless of the training instance or the bottleneck dimension. The Lombard effect was most efficiently captured and focus conditions as second.
Subject: Deep learning
Prosody
Speech analysis


Files in this item

Total number of downloads: Loading...

Files Size Format View
Suviranta_Rosa_ProGradu_2021.pdf 5.035Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record