Predicting Prosodic Prominence from Text with Pre-trained Contextualized Word Representations

Näytä kaikki kuvailutiedot



Pysyväisosoite

http://hdl.handle.net/10138/311873

Lähdeviite

Talman , A , Suni , A , Celikkanat , H , Kakouros , S , Tiedemann , J & Vainio , M 2019 , Predicting Prosodic Prominence from Text with Pre-trained Contextualized Word Representations . in M Hartmann & B Plank (eds) , 22nd Nordic Conference on Computational Linguistics (NoDaLiDa) : Proceedings of the Conference . Linköping Electronic Conference Proceedings , no. 167 , NEALT Proceedings Series , no. 42 , Linköping University Electronic Press , Linköping , pp. 281–290 , Nordic Conference on Computational Linguistics , Turku , Finland , 30/09/2019 .

Julkaisun nimi: Predicting Prosodic Prominence from Text with Pre-trained Contextualized Word Representations
Tekijä: Talman, Aarne; Suni, Antti; Celikkanat, Hande; Kakouros, Sofoklis; Tiedemann, Jörg; Vainio, Martti
Muu tekijä: Hartmann, Mareike
Plank, Barbara
Tekijän organisaatio: Department of Digital Humanities
Language Technology
Phonetics
Phonetics and Speech Synthesis
Mind and Matter
Julkaisija: Linköping University Electronic Press
Päiväys: 2019-09-30
Kieli: eng
Sivumäärä: 10
Kuuluu julkaisusarjaan: 22nd Nordic Conference on Computational Linguistics (NoDaLiDa)
Kuuluu julkaisusarjaan: Linköping Electronic Conference Proceedings - NEALT Proceedings Series
ISBN: 978-91-7929-995-8
ISSN: 1650-3686
URI: http://hdl.handle.net/10138/311873
Tiivistelmä: In this paper we introduce a new natural language processing dataset and benchmark for predicting prosodic prominence from written text. To our knowledge this will be the largest publicly available dataset with prosodic labels. We describe the dataset construction and the resulting benchmark dataset in detail and train a number of different models ranging from feature-based classifiers to neural network systems for the prediction of discretized prosodic prominence. We show that pre-trained contextualized word representations from BERT outperform the other models even with less than 10% of the training data. Finally we discuss the dataset in light of the results and point to future research and plans for further improving both the dataset and methods of predicting prosodic prominence from text. The dataset and the code for the models are publicly available.
Avainsanat: 113 Computer and information sciences
Natural language processing
6121 Languages
Vertaisarvioitu: Kyllä
Tekijänoikeustiedot: cc_by
Pääsyrajoitteet: openAccess
Rinnakkaistallennettu versio: publishedVersion


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
W19_6129.pdf 572.0KB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot