Multilingual paraphrase grammars for machine translation evaluation

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-201811063496
Title: Multilingual paraphrase grammars for machine translation evaluation
Author: Nieminen, Tommi
Other contributor: Helsingin yliopisto, Humanistinen tiedekunta, Nykykielten laitos
University of Helsinki, Faculty of Arts, Department of Modern Languages
Helsingfors universitet, Humanistiska fakulteten, Institutionen för moderna språk
Publisher: Helsingin yliopisto
Date: 2018
Language: eng
URI: http://urn.fi/URN:NBN:fi:hulib-201811063496
http://hdl.handle.net/10138/277525
Thesis level: master's thesis
Discipline: kieliteknologia
Language Technology
Språkteknologi
Abstract: Konekäännösten laadun arviointiin on kehitetty erilaisia menetelmiä 1950-luvulta lähtien. Aluksi laadunarviointimenetelmät olivat lähes yksinomaan manuaalisia, eli ne perustuivat kohdekielen osaajien subjektiivisiin arvioihin konekäännöksen laadusta. 1990-luvulla otettiin käyttöön ensimmäiset automaattiset arviointimenetelmät. Pitkäkestoisesta ja laajasta tutkimuksesta huolimatta sekä manuaaliset että automaattiset arviointimenetelmät ovat edelleen epäluotettavia. Manuaalisten menetelmien ongelmana on se, että eri arvioijien tekemät arviot eivät ole johdonmukaisia. Automaattiset menetelmät taas perustuvat yleensä konekäännöksen vertaamiseen ihmiskääntäjän tekemään yksittäiseen vertailukäännökseen. Lähes jokaiselle lähdelauseelle on olemassa suuri määrä mahdollisia käännöksiä, joten automaattiset menetelmät arvioivat hyvin usein käännökset väärin. Tässä tutkielmassa kuvataan uudenlainen automaattinen menetelmä konekäännösten laadun arviointia varten. Menetelmän testiaineisto koostuu englanninkielisistä lähdelauseista, joista jokaiselle on käytettävissä erittäin laaja joukko suomenkielisiä vertailukäännöksiä. Testiaineisto perustuu manuaalisesti laadittuihin monikielisiin kielioppeihin, jotka ovat eräänlaisia semanttisia malleja, joilla on erilaisia ilmentymiä lähde- ja kohdekielessä. Lähdekielen ilmentymät muodostavat lähdelauseiden joukon ja kohdekielen ilmentymät vertailulauseiden joukon. Semanttiset mallit sisältävät semanttisia muuttujia, jotka lisäävät vaihtelevuutta testiaineistoon. Lähdelauseiden konekäännöksiä verrataan vertailukäännöksiin käyttämällä äärellistilaisia menetelmiä, jotka mahdollistavat konekäännöstä eniten muistuttavan vertailukäännöksen tehokkaan etsimisen. Äärellistilaisten siirtymien avulla voidaan myös seurata, millaisia muutoksia konekäännökseen on tehtävä, jotta sen voi muuttaa sitä eniten muistuttavaksi vertailulauseeksi. Tämä mahdollistaa yksityiskohtaisten virheanalyysien laatimisen, joiden avulla voidaan analysoida konekäännösjärjestelmien vahvuuksia ja heikkouksia. Tutkielman menetelmää arvioidaan kääntämällä testiaineisto kahdeksalla erilaisella konekäännösjärjestelmällä, jotka perustuvat erilaisiin konekäännösmenetelmiin. Konekäännökset käsitellään sen jälkeen menetelmällä. Menetelmän toimivuutta arvioidaan vertaamalla sen tuottamaa virheanalyysia kahden arvioijan tekemiin manuaalisiin virheannotaatioihin sekä testaamalla, pystyykö menetelmä erottamaan ihmiskääntäjien käännökset konekäännöksistä luotettavasti. Menetelmän arviointi osoittaa, että se on riittävän luotettava antamaan yksityiskohtaisia tietoja konekäännösjärjestelmien ominaisuuksista. Menetelmän tulokset ovat myös yhdenmukaisia julkaistujen konekäännöksen virheanalyysia käsittelevien artikkelien tulosten kanssa. Menetelmä siis soveltuu ongelmien automaattiseen havaitsemiseen konekäännösjärjestelmien kehittämisen aikana, mikä on sen pääasiallinen käyttötarkoitus.
Subject: konekäännös
arviointi
machine translation
evaluation


Files in this item

Total number of downloads: Loading...

Files Size Format View
Nieminen_Tommi_Pro_gradu_2018.pdf 746.4Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record