Browsing by Subject "Finnish language"

Sort by: Order: Results:

Now showing items 1-8 of 8
  • Nikolaev, Alexandre; Lehtonen, Minna; Higby, Eve; Hyun, JungMoon; Ashaie, Sameer (2018)
    The aim of the present study was to investigate whether the recognition speed of Finnish nominal base forms varies as a function of their paradigmatic complexity (stem allomorphy) or productivity status. Nikolaev et al. (2014) showed that words with greater stem allomorphy from an unproductive inflectional class arc recognized faster than words with lower stein allomorphy from a productive inflectional class. Productivity of an inflectional paradigm correlates with the number of stem allomorphs in languages like Finnish in that unproductive inflectional classes tend to have higher stem allomorphy. We wanted to distinguish which of these two characteristics provides the benefit to speed of recognition found by Nikolaev et al. (2014). The current study involved a lexical decision task comparing three categories of words: unproductive with three or more stem allomorphs, unproductive with two stem allomorphs, and productive with two stein allomorphs. We observed a facilitation effect for word recognition only for unproductive words with three or more stem allomorphs, but not for unproductive words with two allomorphs. This effect was observed particularly in words of low to moderate familiarity. The findings suggest that high stem allomorphy, rather than productivity of the inflectional class, is driving the facilitation effect in word recognition.
  • Tiittula, Liisa (2015)
  • Alnajjar, Khalid; Hämäläinen, Mika; Rueter, Jack (The Association for Computational Linguistics, 2020)
  • Suunvuoro 
    Tiittula, Liisa Maria (2018)
    Suomen kielen lautakunta julkaisi lokakuun 2018 lopussa kannanoton, jossa se kiinnitti huomiota Suomen kansalliskielten, suomen ja ruotsin, asemaa uhkaavaan käyttöalan kaventumiseen. Yksi tärkeä alue, jolla suomen kielen käyttöä voi vaalia ja edistää, on kääntäminen – tämän numeron teema. Huomattava osa suomenkielisistä teksteistä, joita päivittäin luemme, on käännöksiä, kuten televisio-ohjelmien tekstityksiä, käyttöohjeita, reseptejä, ulkomaanuutisia ja kirjojen suomennoksia. Niin tärkeää kuin vieraiden kielten taito kulttuurienvälisessä viestinnässä onkin, se ei poista eikä edes vähennä kääntämisen tarvetta. Tämän osoittaa se, että valtaosa käännöksistä on nykyään englannista, vaikka englannin kieltä osataan yhä laajemmin ja paremmin. Suomessa painetuista suomenkielisistä kirjoista suomennosten määrä on suuri, vaikka osuus vaihteleekin huomattavasti kirjallisuuden lajin mukaan. Aikuisten proosasta ja nuorten kirjoista suurin piirtein puolet on kotimaisia teoksia ja puolet suomennoksia. Lastenkirjoista sen sijaan vuoden 2017 tilaston mukaan peräti 75 prosenttia oli suomennoksia. Tietokirjoista vastaavia lukuja on vaikea löytää, ja niiden joukkokin on hyvin heterogeeninen. Tietokirjallisuuteen kuuluvat paitsi tieteelliset teokset myös esimerkiksi yleistajuiset tietokirjat, elämäkerrat, esseet ja oppaat, kuten lääkärikirjat, kasvioppaat ja keittokirjat. Kirjakauppaliiton lokakuun 2018 myyntitilastossa 20:n eniten myydyn tietokirjan listalla puolet teoksista on suomennoksia. Näistä taas puolet on käännöksiä englannista, vaikka englanninkielisiä tietokirjoja luetaan todennäköisesti yhä enemmän alkukielellä. Vaikka tieteen kieli on englanti, on vaikea kuvitella arkea ilman suomenkielisiä tietoteoksia. Niissä tarvitaan suomenkielisiä termejä, ja ne on kotoutettava suomenkielisille lukijoille Suomessa käytettäviksi. Esimerkiksi keittokirjojen ohjeissa annetut mitat on lokalisoitava eli muutettava paikallisiksi, jokin ainesosa on kenties korvattava sellaisella, joka on Suomessa varmemmin saatavilla kuin alkutekstissä mainittu, ja tekstilaji on mukautettava suomen konventioiden mukaiseksi. Kääntämisessä tarvitaan monenlaista asiantuntijuutta, jotta lopputuote olisi toimiva ja nautittava. Tämä käy ilmi myös Anne Mäntysen ja Jyrki Kalliokosken artikkelista tässä teemanumerossa. Kääntämisellä ja kääntäjillä on koko suomen kirjakielen historian ajan ollut ratkaiseva merkitys suomen kielen kehittymiselle, kuten voimme havaita Kaarina Pitkänen-Heikkilän ja Taru Nordlundin artikkeleista. Kääntäjät ovat luoneet nimityksiä uusille käsitteille, ja käännökset ovat vaikuttaneet kirjallisuuden kielen ja lajien sekä ylipäätään tekstilajien muotoutumiseen. Ilman käännöksiä ei olisi maailmankirjallisuutta, ja suomennosten ansiosta voimme nauttia teoksista, jotka on alun perin kirjoitettu meille vierailla kielillä. Vaikka osaisimmekin hyvin vierasta kieltä, emme useinkaan taida kaikkia sen vivahteita tai kielimuotoja niin syvällisesti, että voisimme nauttia tekstistä samalla tavoin kuin äidinkielellämme. Suomennos ei silti ole alkuperäisen kaksoiskappale. Vaikka luemme kirjailijan kirjoittamaa kirjaa, sen kieli, jokainen sana ja tyyli, ovat kääntäjän luomia. Ei siis ole sama, miten käännetään, eikä suomentamiseen riitä hyvä vieraan kielen taito – joskin myös se on välttämätön. Marraskuun alussa otsikoihin nousi Ruutu+-palvelun rikosdraamasarja, jonka tekstitys oli paikoin täysin käsittämätöntä. Sen epäiltiin olevan konekääntämisen tulosta. Konekäännösten ajatellaan olevan uhka käännösten laadulle, mutta kuva ei ole näin mustavalkoinen – käännösteknologiaa tarvitaan. Nykymaailmassa ja monikielisessä Suomessa käännösten tarve on niin suuri, ettei sitä pystytä tyydyttämään ihmisvoimin. Käännösteknologia helpottaa myös kääntäjän työtä. Riippuu kuitenkin käännöksen kielestä ja tarkoituksesta, voiko automaattisesti käännetty teksti toimia sellaisenaan tai edes editoituna. Mutta mitä kertoo suhtautumisesta kääntämiseen se, että tällaisia käsittämättömiä käännöksiä käytetään suurelle yleisölle esitetyissä televisio-ohjelmissa? Mitä se kertoo ylipäätään kielen arvostuksesta? Oli kyse sitten painetusta tai audiovisuaalisesta tuotteesta, joka on laadittu vieraalla kielellä, vasta käännös tavoittaa sen suomenkielisen käyttäjän. Jos tähän vaiheeseen ei kunnolla panosteta vaan siinä säästetään, tuotteen saavutettavuus jää kyseenalaiseksi. Laatu syntyy asiantuntijan vaativan työn tuloksena, ja ammattimaisesta työstä on maksettava kunnollinen palkka. Käännöspalkkioiden polkeminen johtaa siihen, että pätevät kääntäjät siirtyvät muihin tehtäviin ja käännöksiä teetetään taitamattomilla. ”Pelkkä intohimo kieleen ei riitä”, kuten jo vuonna 2009 julkaistussa kielipoliittisessa toimintaohjelmassa Suomen kielen tulevaisuus todettiin.
  • Hartama-Heinonen, Ritva; Kivilehto, Marja (2020)
  • Ahlholm, Maria; Kuosmanen, Anne (2019)
    This article presents translations of the Lord’s Prayer in three FinnoUgric languages with long literary traditions: Finnish, Komi-Zyrian, and Komi-Permyak, starting with a short overview of the history of the Prayer in the three languages. The theoretical framework combines semantic priming as defined by Anna Wierzbicka and construction analysis as presented by Adele Goldberger. The lexical and constructional choices of the translations are scrutinized phrase by phrase, placing the semantic exegesis alongside the history of translating the Prayer into the three languages. The results show a cross-analysis of the simple core message of the Prayer versus the oral and literal language-specific histories of prayer constructions in these three related but autonomous Finno-Ugric languages.
  • Leal, Rafael (Helsingin yliopisto, 2020)
    In modern Natural Language Processing, document categorisation tasks can achieve success rates of over 95% using fine-tuned neural network models. However, so-called "zero-shot" situations, where specific training data is not available, are researched much less frequently. The objective of this thesis is to investigate how pre-trained Finnish language models fare when classifying documents in a completely unsupervised way: by relying only on their general "knowledge of the world" obtained during training, without using any additional data. Two datasets are created expressly for this study, since labelled and openly available datasets in Finnish are very uncommon: one is built using around 5k news articles from Yle, the Finnish Broacasting Company, and the other, 100 pieces of Finnish legislation obtained from the Semantic Finlex data service. Several language representation models are built, based on the vector space model, by combining modular elements: different kinds of textual representations for documents and category labels, different algorithms that transform these representations into vectors (TF-IDF, Annif, fastText, LASER, FinBERT, S-BERT), different similarity measures and post-processing techniques (such as SVD and ensemble models). This approach allows for a variety of models to be tested. The combination of Annif for extracting keywords and fastText for producing word embeddings out of them achieves F1 scores of 0.64 on the Finlex dataset and 0.73-0.74 on the Yle datasets. Model ensembles are able to raise these figures by up to three percentage points. SVD can bring these numbers to 0.7 and 0.74-0.75 respectively, but these gains are not necessarily reproducible on unseen data. These results are distant from the ones obtained from state-of-the-art supervised models, but this is a method that is flexible, can be quickly deployed and, most importantly, do not depend on labelled data, which can be slow and expensive to make. A reliable way to set the input parameter for SVD would be an important next step for the work done in this thesis.
  • Vanhatalo, Ulla; Tissari, Heli; Lilja, Taru; Vehkalahti, Kimmo; Siiroinen, Mari (2020)