Sense-aware Unsupervised Machine Translation
Show simple item record
dc.contributor |
Helsingin yliopisto, Humanistinen tiedekunta |
fi |
dc.contributor |
University of Helsinki, Faculty of Arts |
en |
dc.contributor |
Helsingfors universitet, Humanistiska fakulteten |
sv |
dc.contributor.author |
Vahtola, Teemu |
|
dc.date.issued |
2020 |
|
dc.identifier.uri |
URN:NBN:fi:hulib-202012155146 |
|
dc.identifier.uri |
http://hdl.handle.net/10138/322924 |
|
dc.description.abstract |
Modernit sanaupotusmenetelmät, esimerkiksi Word2vec, eivät mallinna leksikaalista moniselitteisyyttä luottaessaan kunkin sanan mallinnuksen yhden vektorirepresentaation varaan. Näin ollen leksikaalinen moniselitteisyys aiheuttaa ongelmia konekääntimille ja voi johtaa moniselitteisten sanojen käännökset usein harhaan. Työssä tarkastellaan mahdollisuutta mallintaa moniselitteisiä sanoja merkitysupotusmenetelmän (sense embeddings) avulla ja hyödynnetään merkitysupotuksia valvomattoman konekäännösohjelman (unsupervised machine translation) opetuksessa kieliparilla Englanti-Saksa.
Siinä missä sanaupotusmenetelmät oppivat yhden vektorirepresentaation kullekin sanalle, merkitysupotusmenetelmän avulla voidaan oppia useita representaatioita riippuen aineistosta tunnistettujen merkitysten määrästä. Näin ollen yksi valvomattoman konekääntämisen perusmenetelmistä, sanaupotusten kuvaus joukosta lähde- ja kohdekielten yksikielisiä vektorirepresentaatioita jaettuun kaksikieliseen vektoriavaruuteen, voi tuottaa paremman kuvauksen, jossa moniselitteiset sanat mallintuvat paremmin jaetussa vektoriavaruudessa. Tämä mallinnustapa voi vaikuttaa positiivisesti konekäännösohjelman kykyyn kääntää moniselitteisiä sanoja.
Työssä merkitysupotusmalleja käytetään saneiden alamerkitysten yksiselitteistämiseen, ja tämän myötä jokainen konekäännösmallin opetusaineistossa esiintyvä sane annotoidaan merkitystunnisteella. Näin ollen konekäännösmalli hyödyntää sanaupotusten sijaan merkitysupotuksia oppiessaan kääntämään lähde- ja kohdekielten välillä.
Työssä opetetaan tilastollinen konekäännösmalli käyttäen tavanomaista sanaupotusmenetelmää. Tämän lisäksi opetetaan sekä tilastollinen että neuroverkkokonekäännösmalli käyttäen merkitysupotusmenetelmää. Aineistona työssä käytetään WMT-14 News Crawl -aineistoa. Opetettujen mallien tuloksia verrataan aiempaan konekäännöstutkimuksen automaattisessa arvioinnissa hyvin menestyneeseen tilastolliseen konekäännösmalliin. Lisäksi työssä suoritetaan tulosten laadullinen arviointi, jossa keskitytään yksittäisten moniselitteisten sanojen kääntämiseen. Tulokset osoittavat, että käännösmallit voivat hyötyä merkitysupotusmenetelmästä. Tarkasteltujen esimerkkien perusteella merkitysupotusmenetelmää hyödyntävät konekäännösmallit onnistuvat kääntämään moniselitteisiä sanoja sanaupotusmenetelmää hyödyntävää mallia tarkemmin vastaamaan referenssikäännöksissä valittuja käännöksiä. Näin ollen laadullisen arvioinnin kohdistuessa yksittäisten moniselitteisten sanojen kääntämiseen, merkitysupotusmenetelmästä näyttää olevan hyötyä konekäännösmallien opetuksessa. |
fi |
dc.language.iso |
eng |
|
dc.publisher |
Helsingin yliopisto |
fi |
dc.publisher |
University of Helsinki |
en |
dc.publisher |
Helsingfors universitet |
sv |
dc.subject |
konekääntäminen |
|
dc.subject |
machine translation |
|
dc.subject |
unsupervised machine translation |
|
dc.subject |
sense embeddings |
|
dc.subject |
machine learning |
|
dc.title |
Sense-aware Unsupervised Machine Translation |
en |
dc.type.ontasot |
pro gradu -tutkielmat |
fi |
dc.type.ontasot |
master's thesis |
en |
dc.type.ontasot |
pro gradu-avhandlingar |
sv |
dct.identifier.urn |
URN:NBN:fi:hulib-202012155146 |
|
dc.subject.specialization |
Kieliteknologia |
fi |
dc.subject.specialization |
Language Technology |
en |
dc.subject.specialization |
Språkteknologi |
sv |
dc.subject.degreeprogram |
Kielellisen diversiteetin ja digitaalisten menetelmien maisteriohjelma |
fi |
dc.subject.degreeprogram |
Master's Programme Linguistic Diversity in the Digital Age |
en |
dc.subject.degreeprogram |
Magisterprogrammet i språklig diversitet och digitala metoder |
sv |
Files in this item
Total number of downloads: Loading...
This item appears in the following Collection(s)
Show simple item record