Browsing by Subject "machine translation"

Sort by: Order: Results:

Now showing items 1-5 of 5
  • Mäkinen, Maria (Helsingin yliopisto, 2019)
    The topic of this thesis is domain adaptation of an NMT system by retraining it with translation memories. The translation memory used in the experiments is the EMEA corpus that consists of medical texts – mostly package leaflets. The NMT system used in the experiments is OpenNMT because it is completely free and easy to use. The goal of this thesis is to find out how an NMT system can be adapted to a special domain, and if the translation quality improves after domain adaptation. The original plan was to continue training the pretrained model of OpenNMT with EMEA data, but this is not possible. Therefore, it is necessary to train a new baseline model with the same data as the pretrained model was trained with. After this two domain adaptation methods are tested: continuation training with EMEA data and continuation training with unknown terms. In the manual evaluation, it turned out that domain adaptation with unknown terms worsens the translation quality drastically because all sentences are translated as single words. This method is only suitable for translating wordlists because it improved the translation of unknown terms. Domain adaptation with EMEA data, for the other hand, improves the translation quality significantly. The EMEA-retrained system translates long sentences and medical terms much better than the pretrained and the baseline models. Long and complicated terms are still difficult to translate but the EMEA-retrained model makes fewer errors than the other models. The evaluation metrics used for automatic evaluation are BLEU and LeBLEU. BLEU is stricter than LeBLEU. The results are similar as in the manual evaluation: The EMEA-retrained model translates medical texts much better than the other models, and the translation quality of the UNK-retrained model is the worst of all. It can be presumed that an NMT system needs contextual information so that it learns to translate terms and long sentences without transforming the text into a wordlist without sentences. In addition, it seems that long terms are translated in smaller pieces so that the NMT system possibly translates some pieces wrong, which results in that the whole term is wrong.
  • Nieminen, Tommi (Helsingin yliopisto, 2018)
    Konekäännösten laadun arviointiin on kehitetty erilaisia menetelmiä 1950-luvulta lähtien. Aluksi laadunarviointimenetelmät olivat lähes yksinomaan manuaalisia, eli ne perustuivat kohdekielen osaajien subjektiivisiin arvioihin konekäännöksen laadusta. 1990-luvulla otettiin käyttöön ensimmäiset automaattiset arviointimenetelmät. Pitkäkestoisesta ja laajasta tutkimuksesta huolimatta sekä manuaaliset että automaattiset arviointimenetelmät ovat edelleen epäluotettavia. Manuaalisten menetelmien ongelmana on se, että eri arvioijien tekemät arviot eivät ole johdonmukaisia. Automaattiset menetelmät taas perustuvat yleensä konekäännöksen vertaamiseen ihmiskääntäjän tekemään yksittäiseen vertailukäännökseen. Lähes jokaiselle lähdelauseelle on olemassa suuri määrä mahdollisia käännöksiä, joten automaattiset menetelmät arvioivat hyvin usein käännökset väärin. Tässä tutkielmassa kuvataan uudenlainen automaattinen menetelmä konekäännösten laadun arviointia varten. Menetelmän testiaineisto koostuu englanninkielisistä lähdelauseista, joista jokaiselle on käytettävissä erittäin laaja joukko suomenkielisiä vertailukäännöksiä. Testiaineisto perustuu manuaalisesti laadittuihin monikielisiin kielioppeihin, jotka ovat eräänlaisia semanttisia malleja, joilla on erilaisia ilmentymiä lähde- ja kohdekielessä. Lähdekielen ilmentymät muodostavat lähdelauseiden joukon ja kohdekielen ilmentymät vertailulauseiden joukon. Semanttiset mallit sisältävät semanttisia muuttujia, jotka lisäävät vaihtelevuutta testiaineistoon. Lähdelauseiden konekäännöksiä verrataan vertailukäännöksiin käyttämällä äärellistilaisia menetelmiä, jotka mahdollistavat konekäännöstä eniten muistuttavan vertailukäännöksen tehokkaan etsimisen. Äärellistilaisten siirtymien avulla voidaan myös seurata, millaisia muutoksia konekäännökseen on tehtävä, jotta sen voi muuttaa sitä eniten muistuttavaksi vertailulauseeksi. Tämä mahdollistaa yksityiskohtaisten virheanalyysien laatimisen, joiden avulla voidaan analysoida konekäännösjärjestelmien vahvuuksia ja heikkouksia. Tutkielman menetelmää arvioidaan kääntämällä testiaineisto kahdeksalla erilaisella konekäännösjärjestelmällä, jotka perustuvat erilaisiin konekäännösmenetelmiin. Konekäännökset käsitellään sen jälkeen menetelmällä. Menetelmän toimivuutta arvioidaan vertaamalla sen tuottamaa virheanalyysia kahden arvioijan tekemiin manuaalisiin virheannotaatioihin sekä testaamalla, pystyykö menetelmä erottamaan ihmiskääntäjien käännökset konekäännöksistä luotettavasti. Menetelmän arviointi osoittaa, että se on riittävän luotettava antamaan yksityiskohtaisia tietoja konekäännösjärjestelmien ominaisuuksista. Menetelmän tulokset ovat myös yhdenmukaisia julkaistujen konekäännöksen virheanalyysia käsittelevien artikkelien tulosten kanssa. Menetelmä siis soveltuu ongelmien automaattiseen havaitsemiseen konekäännösjärjestelmien kehittämisen aikana, mikä on sen pääasiallinen käyttötarkoitus.
  • Vahtola, Teemu (Helsingin yliopisto, 2020)
    Modernit sanaupotusmenetelmät, esimerkiksi Word2vec, eivät mallinna leksikaalista moniselitteisyyttä luottaessaan kunkin sanan mallinnuksen yhden vektorirepresentaation varaan. Näin ollen leksikaalinen moniselitteisyys aiheuttaa ongelmia konekääntimille ja voi johtaa moniselitteisten sanojen käännökset usein harhaan. Työssä tarkastellaan mahdollisuutta mallintaa moniselitteisiä sanoja merkitysupotusmenetelmän (sense embeddings) avulla ja hyödynnetään merkitysupotuksia valvomattoman konekäännösohjelman (unsupervised machine translation) opetuksessa kieliparilla Englanti-Saksa. Siinä missä sanaupotusmenetelmät oppivat yhden vektorirepresentaation kullekin sanalle, merkitysupotusmenetelmän avulla voidaan oppia useita representaatioita riippuen aineistosta tunnistettujen merkitysten määrästä. Näin ollen yksi valvomattoman konekääntämisen perusmenetelmistä, sanaupotusten kuvaus joukosta lähde- ja kohdekielten yksikielisiä vektorirepresentaatioita jaettuun kaksikieliseen vektoriavaruuteen, voi tuottaa paremman kuvauksen, jossa moniselitteiset sanat mallintuvat paremmin jaetussa vektoriavaruudessa. Tämä mallinnustapa voi vaikuttaa positiivisesti konekäännösohjelman kykyyn kääntää moniselitteisiä sanoja. Työssä merkitysupotusmalleja käytetään saneiden alamerkitysten yksiselitteistämiseen, ja tämän myötä jokainen konekäännösmallin opetusaineistossa esiintyvä sane annotoidaan merkitystunnisteella. Näin ollen konekäännösmalli hyödyntää sanaupotusten sijaan merkitysupotuksia oppiessaan kääntämään lähde- ja kohdekielten välillä. Työssä opetetaan tilastollinen konekäännösmalli käyttäen tavanomaista sanaupotusmenetelmää. Tämän lisäksi opetetaan sekä tilastollinen että neuroverkkokonekäännösmalli käyttäen merkitysupotusmenetelmää. Aineistona työssä käytetään WMT-14 News Crawl -aineistoa. Opetettujen mallien tuloksia verrataan aiempaan konekäännöstutkimuksen automaattisessa arvioinnissa hyvin menestyneeseen tilastolliseen konekäännösmalliin. Lisäksi työssä suoritetaan tulosten laadullinen arviointi, jossa keskitytään yksittäisten moniselitteisten sanojen kääntämiseen. Tulokset osoittavat, että käännösmallit voivat hyötyä merkitysupotusmenetelmästä. Tarkasteltujen esimerkkien perusteella merkitysupotusmenetelmää hyödyntävät konekäännösmallit onnistuvat kääntämään moniselitteisiä sanoja sanaupotusmenetelmää hyödyntävää mallia tarkemmin vastaamaan referenssikäännöksissä valittuja käännöksiä. Näin ollen laadullisen arvioinnin kohdistuessa yksittäisten moniselitteisten sanojen kääntämiseen, merkitysupotusmenetelmästä näyttää olevan hyötyä konekäännösmallien opetuksessa.
  • Tiedemann, Jörg (2021)
    This paper presents our on-going efforts to develop a comprehensive data set and benchmark for machine translation beyond high-resource languages. The current release includes 500GB of compressed parallel data for almost 3,000 language pairs covering over 500 languages and language variants. We present the structure of the data set and demonstrate its use for systematic studies based on baseline experiments with multilingual neural machine translation between Finno-Ugric languages and other language groups. Our initial results show the capabilities of training effective multilingual translation models with skewed training data but also stress the shortcomings with low-resource settings and the difficulties to obtain sufficient information through straightforward transfer from related languages.
  • Georg Rehm, Hans Uszkoreit, Sophia Ananiadou, Núria Bel, Audrone Bieleviciene, Lars Borin, António Branco, Gerhard Budin, Nicoletta Calzolari, Walter Daelemans, Radovan Garabík, Marko Grobelnik, Carmen Garcia-Mateo, Josef Van Genabith, Jan Hajic, Inma Hernaez, John Judge, Svetla Koeva, Simon Krek, Cvetana Krstev, Krister Lindén, Bernardo Magnini, Joseph Mariani, John Mcnaught, Maite Melero, Monica Monachini, Asuncion Moreno, Jan Odijk, Maciej Ogrodniczuk, Piotr Pezik, Stelios Piperidis, Adam Przepiórkowski, Eiríkur Rögnvaldsson, Michael Rosner, Bolette Sandford Pedersen, Inguna Skadina, Koenraad De Smedt, Marko Tadić, Paul Thompson, Dan Tufiș, Tamás Váradi, Andrejs Vasiljevs, Kadri Vider, Jolanta Zabarskaite (European Language Resources Association (ELRA), 2014)
    This article provides an overview of the dissemination work carried out in META-NET from 2010 until early 2014; we describe its impact on the regional, national and international level, mainly with regard to politics and the situation of funding for LT topics. This paper documents the initiative’s work throughout Europe in order to boost progress and innovation in our field.