Multilingual Named Entity Recognition through Data and Model Transfer

Visa fullständig post



Permalänk

http://urn.fi/URN:NBN:fi:hulib-202105312393
Titel: Multilingual Named Entity Recognition through Data and Model Transfer
Författare: Palma-Suominen, Saara
Medarbetare: Helsingin yliopisto, Humanistinen tiedekunta
University of Helsinki, Faculty of Arts
Helsingfors universitet, Humanistiska fakulteten
Utgivare: Helsingin yliopisto
Datum: 2021
Språk: eng
Permanenta länken (URI): http://urn.fi/URN:NBN:fi:hulib-202105312393
http://hdl.handle.net/10138/330451
Nivå: pro gradu-avhandlingar
Utbildningsprogram: Kielellisen diversiteetin ja digitaalisten menetelmien maisteriohjelma
Master's Programme Linguistic Diversity in the Digital Age
Magisterprogrammet i språklig diversitet och digitala metoder
Studieinriktning: Kieliteknologia
Language Technology
Språkteknologi
Abstrakt: Maisterintutkielma käsittelee monikielistä nimien tunnistusta. Tutkielmassa testataan kahta lähestymistapaa monikieliseen nimien tunnistukseen: annotoidun datan siirtoa toisille kielille, sekä monikielisen mallin luomista. Lisäksi nämä kaksi lähestymistapaa yhdistetään. Tarkoitus on löytää menetelmiä, joilla nimien tunnistusta voidaan tehdä luotettavasti myös pienemmillä kielillä, joilla annotoituja nimientunnistusaineistoja ei ole suuressa määrin saatavilla. Tutkielmassa koulutetaan ja testataan malleja neljällä kielellä: suomeksi, viroksi, hollanniksi ja espanjaksi. Ensimmäisessä metodissa annotoitu data siirretään kieleltä toiselle monikielisen paralleelikorpuksen avulla, ja näin syntynyttä dataa käytetään neuroverkkoja hyödyntävän koneoppimismallin opettamiseen. Toisessa metodissa käytetään monikielistä BERT-mallia. Mallin koulutukseen käytetään annotoituja korpuksia, jotka yhdistetään monikieliseksi opetusaineistoksi. Kolmannessa metodissa kaksi edellistä metodia yhdistetään, ja kieleltä toiselle siirrettyä dataa käytetään monikielisen BERT-mallin koulutuksessa. Kaikkia kolmea lähestymistapaa testataan kunkin kielen annotoidulla testisetillä, ja tuloksia verrataan toisiinsa. Metodi, jossa rakennettiin monikielinen BERT-malli, saavutti selkeästi parhaimmat tulokset nimien tunnistamisessa. Neuroverkkomallit, jotka koulutettiin kielestä toiseen siirretyillä annotaatioilla, saivat selkeästi heikompia tuloksia. BERT-mallin kouluttaminen siirretyillä annotaatioilla tuotti myös heikkoja tuloksia. Annotaatioiden siirtäminen kieleltä toiselle osoittautui haastavaksi, ja tuloksena syntynyt data sisälsi virheitä. Tulosten heikkouteen vaikutti myös opetusaineiston ja testiaineiston kuuluminen eri genreen. Monikielinen BERT-malli on tutkielman mukaan testatuista parhaiten toimiva metodi, ja sopii myös kielille, joilla annotoituja aineistoja ei ole paljon saatavilla.
Subject: NLP
Language Technology
NER
Named Entity Recognition
multilingual
BERT
data transfer
model transfer
kieliteknologia
nimien tunnistus
Subject (yso): kieliteknologia


Filer under denna titel

Totalt antal nerladdningar: Laddar...

Filer Storlek Format Granska
palma-suominen_saara_tutkielma_2021.pdf 2.415Mb PDF Granska/Öppna

Detta dokument registreras i samling:

Visa fullständig post