Title: | Multilingual Named Entity Recognition through Data and Model Transfer |
Author: | Palma-Suominen, Saara |
Other contributor: |
Helsingin yliopisto, Humanistinen tiedekunta
University of Helsinki, Faculty of Arts Helsingfors universitet, Humanistiska fakulteten |
Publisher: | Helsingin yliopisto |
Date: | 2021 |
Language: | eng |
URI: |
http://urn.fi/URN:NBN:fi:hulib-202105312393
http://hdl.handle.net/10138/330451 |
Thesis level: | master's thesis |
Degree program: |
Kielellisen diversiteetin ja digitaalisten menetelmien maisteriohjelma
Master's Programme Linguistic Diversity in the Digital Age Magisterprogrammet i språklig diversitet och digitala metoder |
Specialisation: |
Kieliteknologia
Language Technology Språkteknologi |
Abstract: | Maisterintutkielma käsittelee monikielistä nimien tunnistusta. Tutkielmassa testataan kahta lähestymistapaa monikieliseen nimien tunnistukseen: annotoidun datan siirtoa toisille kielille, sekä monikielisen mallin luomista. Lisäksi nämä kaksi lähestymistapaa yhdistetään. Tarkoitus on löytää menetelmiä, joilla nimien tunnistusta voidaan tehdä luotettavasti myös pienemmillä kielillä, joilla annotoituja nimientunnistusaineistoja ei ole suuressa määrin saatavilla. Tutkielmassa koulutetaan ja testataan malleja neljällä kielellä: suomeksi, viroksi, hollanniksi ja espanjaksi. Ensimmäisessä metodissa annotoitu data siirretään kieleltä toiselle monikielisen paralleelikorpuksen avulla, ja näin syntynyttä dataa käytetään neuroverkkoja hyödyntävän koneoppimismallin opettamiseen. Toisessa metodissa käytetään monikielistä BERT-mallia. Mallin koulutukseen käytetään annotoituja korpuksia, jotka yhdistetään monikieliseksi opetusaineistoksi. Kolmannessa metodissa kaksi edellistä metodia yhdistetään, ja kieleltä toiselle siirrettyä dataa käytetään monikielisen BERT-mallin koulutuksessa. Kaikkia kolmea lähestymistapaa testataan kunkin kielen annotoidulla testisetillä, ja tuloksia verrataan toisiinsa. Metodi, jossa rakennettiin monikielinen BERT-malli, saavutti selkeästi parhaimmat tulokset nimien tunnistamisessa. Neuroverkkomallit, jotka koulutettiin kielestä toiseen siirretyillä annotaatioilla, saivat selkeästi heikompia tuloksia. BERT-mallin kouluttaminen siirretyillä annotaatioilla tuotti myös heikkoja tuloksia. Annotaatioiden siirtäminen kieleltä toiselle osoittautui haastavaksi, ja tuloksena syntynyt data sisälsi virheitä. Tulosten heikkouteen vaikutti myös opetusaineiston ja testiaineiston kuuluminen eri genreen. Monikielinen BERT-malli on tutkielman mukaan testatuista parhaiten toimiva metodi, ja sopii myös kielille, joilla annotoituja aineistoja ei ole paljon saatavilla. |
Subject: |
NLP
Language Technology NER Named Entity Recognition multilingual BERT data transfer model transfer kieliteknologia nimien tunnistus |
Subject (yso): | kieliteknologia |
Total number of downloads: Loading...
Files | Size | Format | View |
---|---|---|---|
palma-suominen_saara_tutkielma_2021.pdf | 2.415Mb |
View/ |