Analysis of speech prosody using Variational Autoencoder bottleneck features : the Lombard effect

Visa fullständig post



Permalänk

http://urn.fi/URN:NBN:fi:hulib-202106152746
Titel: Analysis of speech prosody using Variational Autoencoder bottleneck features : the Lombard effect
Sekundär titel: Lombard efektin prosodinen analyysi Variationalisen Autoenkooderin pullonkaulan representaatioilla
Författare: Suviranta, Rosa
Medarbetare: Helsingin yliopisto, Humanistinen tiedekunta
University of Helsinki, Faculty of Arts
Helsingfors universitet, Humanistiska fakulteten
Utgivare: Helsingin yliopisto
Datum: 2021
Språk: eng
Permanenta länken (URI): http://urn.fi/URN:NBN:fi:hulib-202106152746
http://hdl.handle.net/10138/331119
Nivå: pro gradu-avhandlingar
Utbildningsprogram: Kielellisen diversiteetin ja digitaalisten menetelmien maisteriohjelma
Master's Programme Linguistic Diversity in the Digital Age
Magisterprogrammet i språklig diversitet och digitala metoder
Studieinriktning: Fonetiikka
Phonetics
Fonetik
Abstrakt: Tämä on esi-tutkimus, jossa tutkitaan kuinka konditioitu konvolutionaalinen variationaa- linen autoenkooderi (KKVAE) oppii Lombard efektin sekä erilaisten fokus konditioiden välisen interaktion prosodiset piirteet. Lombard efekti on puheen mukauttamista ko- vaan taustahälyyn. Se ilmenee puhunnoksen intesiteetin nostossa, perustaajuuden, sekä keston muutoksissa. Fokus merkkaa puhunnoksen uutta informaatiota. Fokus tuotetaan painottamalla fokusoitua sanaa tai lauseen osaa. KKVAE koulutettiin suomenkielisen Lombard puhe korpuksen perustaajus– sekä puhe- käyrillä. Autoenkooderin kyky rekonstruoida prosodisia piirteitä arvioitiin statistisesti suoraan pullonkaulojen representaatioista. Tutkimus pyrki vastaamaan mikä on riittävä pullonkaulan dimensio prosodisten piirteiden analyysiin, kuinka hyvin pullonkaula oppii prosodiset piirteet ja miten autoenkooderi koodaa prosodiset piirteet pullonkaulaan. Tutkimuksessa saatiin selville, että kyseinen metodi pystyy tuottamaan uusia represen- taatioita jotka kvantifioivat prosodisia piirteitä sekä niiden keskinäistä vuorovaikutusta. Jopa matala dimensionaalisia pullonkauloja voidaan käyttää prosodisten piireteiden luo- kittelemiseen. Tutkimus ei kuitenkaan onnistunut määrittelemään parasta mahdollista pullonkaula dimensiota. Optimaalinen pullonkaula vaatii syvällisempää tarkastelua. Autoenkooderin kykyä oppia prosodiset piirteet arvioitiin tutkimalla generoituja näytteitä. Tulosten mukaan konditioitu konvolutionaalinen variationaalinen autokooderi oppii prosodiset piirteet hyvin. Uusien näytteiden laatu korreloi positiivisesti pullonkaulan dimension kanssa. Lisäksi tutkimuksessa selvitetiin pullonkaulojen koodausta. Kävi ilmi, että KKVAE koodaa pullonkaulat samankaltaisesti riippumatta opetus instanssista tai pullonkaulan dimensiosta. Lisäksi opittiin, että KKVAE oppi Lombard efektin parhaiten. Kuitenkin KKVAE oppi myös eri fokus konditiot tehokkaasti.This study is a preliminary study to verify how well a Conditioned Convolutional Variational Autoencoder (CCVAE) learns the prosodic characteristics of interaction between the Lombard effect and different focus conditions. Lombard speech is an adaptation to ambient noise manifested by rising vocal intensity, fundamental frequency, and duration. Focus marks new propositional information and is signalled by making the focused word more prominent in relation to others. A CCVAE was trained on the f0 contours and speech envelopes of a Lombard speech corpus of Finnish utterances. The model’s capability to reconstruct the prosodic charac- teristics was statistically evaluated based on bottleneck representations alone. The following questions were addressed: the appropriate size of the bottleneck layer for the task, the ability of the bottleneck representations to capture the prosodic characteris- tics and the encoding of the bottleneck representations. The study shows promising results. The method can elicit representations that can quantify prosodic effects of the underlying influences and interactions. The study found that even the low dimensional bottlenecks can conceptualise and consis- tently typologize the prosodic events of interest. However, finding the optimal bottleneck dimension still needs more research. Subsequently, the model’s ability to capture the prosodic characteristics was verified by investigating the generated samples. Based on the results, the CCVAE can capture prosodic events. The quality of the reconstruction is positively correlated with the bottleneck dimension. Finally, the encoding of the bottlenecks were examined. The CCVAE encodes the bottleneck representations similarly regardless of the training instance or the bottleneck dimension. The Lombard effect was most efficiently captured and focus conditions as second.
Subject: Deep learning
Prosody
Speech analysis


Filer under denna titel

Totalt antal nerladdningar: Laddar...

Filer Storlek Format Granska
Suviranta_Rosa_ProGradu_2021.pdf 5.035Mb PDF Granska/Öppna

Detta dokument registreras i samling:

Visa fullständig post