  • Suviranta, Rosa (Helsingin yliopisto, 2021)
    This study is a preliminary study to verify how well a Conditioned Convolutional Variational Autoencoder (CCVAE) learns the prosodic characteristics of interaction between the Lombard effect and different focus conditions. Lombard speech is an adaptation to ambient noise manifested by rising vocal intensity, fundamental frequency, and duration. Focus marks new propositional information and is signalled by making the focused word more prominent in relation to others. A CCVAE was trained on the f0 contours and speech envelopes of a Lombard speech corpus of Finnish utterances. The model’s capability to reconstruct the prosodic charac- teristics was statistically evaluated based on bottleneck representations alone. The following questions were addressed: the appropriate size of the bottleneck layer for the task, the ability of the bottleneck representations to capture the prosodic characteris- tics and the encoding of the bottleneck representations. The study shows promising results. The method can elicit representations that can quantify prosodic effects of the underlying influences and interactions. The study found that even the low dimensional bottlenecks can conceptualise and consis- tently typologize the prosodic events of interest. However, finding the optimal bottleneck dimension still needs more research. Subsequently, the model’s ability to capture the prosodic characteristics was verified by investigating the generated samples. Based on the results, the CCVAE can capture prosodic events. The quality of the reconstruction is positively correlated with the bottleneck dimension. Finally, the encoding of the bottlenecks were examined. The CCVAE encodes the bottleneck representations similarly regardless of the training instance or the bottleneck dimension. The Lombard effect was most efficiently captured and focus conditions as second.
  • Narkevich, Dmitry (Helsingin yliopisto, 2021)
    Hypernymy is a relationship between two words, where the hyponym carries a more specific meaning, and entails a hypernym that carries a more general meaning. A particular kind of verbal hypernymy is troponymy, where troponyms are verbs that encode a particular manner or way of doing something, such as “whisper” meaning “to speak in a quiet manner”. Recently, contextualized word vectors have emerged as a powerful tool for representing the semantics of words in a given context, in contrast to earlier static embeddings where every word is represented by a single vector regardless of sense. BERT, a pre-trained language model that uses contextualized word representations, achieved state of the art performance on various downstream NLP tasks such as question answering. Previous research identified knowledge of scalar adjective intensity in BERT, but not systematic knowledge of nominal hypernymy. In this thesis, we investigate systematic knowledge of troponymy and verbal hypernymy in the base English version of BERT. We compare the similarity of vector representations for manner verbs and adverbs of interest, to see if troponymy is represented in the vector space. Then, we evaluate BERT’s predictions for cloze tasks involving troponymy and verbal hypernymy. We also attempt to train supervised models to probe vector representations for this knowledge. Lastly, we perform clustering analyses on vector representations of words in hypernymy pairs. Data on troponymy and hypernymy relationships is extracted from WordNet and HyperLex, and sentences containing instances of the relevant words are obtained from the ukWaC corpus. We were unable to identify any systematic knowledge about troponymy and verb hypernymy in BERT. It was reasonably successful at predicting hypernyms in the masking experiments, but a general inability to go in the other direction suggests that this knowledge is not systematic. Our probing models were unsuccessful at recovering information related to hypernymy and troponymy from the representations. In contrast with previous work that finds type-level semantic information to be located in the lower layers of BERT, our cluster-based analyses suggest that the upper layers contain stronger or more accessible representations of hypernymy.
  • McKenzie, Emma (Helsingin yliopisto, 2020)
    This project is a corpus-based study on numeral + noun phrases in Scottish Gaelic. The typical pattern in Scottish Gaelic is to use a singular noun after numerals one and two and a plural noun after numerals three through ten. However, there are some nouns that do not follow this expected pattern. These exceptions are called numeratives and there are three different categories of numeratives in Scottish Gaelic: duals, numeratives identical in form to a singular, and numeratives with a form that differs from singular and plural and only used with numerals. This study aims to find which nouns have numerative forms and how their use varies diachronically and between dialects. While numeratives have been more researched in Welsh and Irish, there is not much research on numeratives in Scottish Gaelic. Ò Maolalaigh (2013) did a more restricted corpus study to find what nouns use singular after numerals three through ten. The past research provides a good comparison for my results and gives me a good foundation to expand on. From the past research, there seems to be a semantic relationship between the kinds of nouns that have numerative forms, so I sort my results into semantic categories as well. I also look at numeratives from the perspective of linguistic complexity since Scottish Gaelic is a minority language with a large proportion of L2 speakers. This project uses Corpas na Gàidhlig (the Corpus of Scottish Gaelic), which is part of the University of Glasgow’s Digital Archive of Scottish Gaelic. I search the corpus for numerals two through four to see which nouns use numeratives and how consistently they use them. I also look at how frequently numeratives are used diachronically and how usage varies across dialects. I focus especially on nouns that have a high number of numerative tokens to see if there is a pattern in their usage. In my results, I found 47 nouns that use a dual form and 105 nouns that use a numerative identical in form to a singular. The overall findings for numerative use are that dual use is decreasing, while use of numeratives identical in form to singular has been increasing since 1900-1949. The semantic category with the most dual tokens is natural pairs. The nouns with numeratives identical in form to singular tend to be nouns frequently used with numerals, such as measurement words.
  • An, Yu (Helsingin yliopisto, 2020)
    Maps of science, or cartography of scientific fields, provide insights into the state of scientific knowledge. Analogous to geographical maps, maps of science present the fields as positions and show the paths connecting each other, which can serve as an intuitive illustration for the history of science or a hint to spot potential opportunities for collaboration. In this work, I investigate the reproducibility of a method to generate such maps. The idea of the method is to derive representations representations for the given scientific fields with topic models and then perform hierarchical clustering on these, which in the end yields a tree of scientific fields as the map. The result is found unreproducible, as my result obtained on the arXiv data set (~130k articles from arXiv Computer Science) shows an inconsistent structure from the one in the reference study. To investigate the cause of the inconsistency, I derive a second set of maps using the same method and an adjusted data set, which is constructed by re-sampling the arXiv data set to a more balanced distribution. The findings show the confounding factors in the data cannot account for the inconsistency; instead, it should be due to the stochastic nature of the unsupervised algorithm. I also improve the approach by using ensemble topic models to derive representations. It is found the method to derive maps of science can be reproducible when it uses an ensemble topic model fused from a sufficient number of base models.
  • Asikainen, Atte (Helsingin yliopisto, 2021)
    It is common for speech to occur in closed spaces. Hence, room acoustics have a significant role in speech communication. In previous studies, effects of reverberation on speech production have been found. However, research on the concerned field is yet scarce. Adverse room acoustics have been observed to expose occupational speakers, such as teachers, to voice disorders. Thus, it is crucial to study what are the room acoustic requirements for economic speaking. The purpose of this study is to examine which speech-acoustic traits change when the speaker is exposed to reverberation, and how. In the present study, two different approaches are taken: variation of reverberation time and removal of the reverberation. The changes in speech are reflected to the Lombard sign (the raise of speech level in a noisy environment). Additionally, differences related to gender and prosody are examined concerning the present topic. In this study, a speech production experiment was conducted with acoustic and statistical analyses. 11 Finnish-speaking volunteers (six females and five males) participated the experiment, where 150 short sentences were recorded from each participant. The sentences were produced in five different room-acoustic conditions. In four out of five, digitally simulated reverberation was played back on headphones worn by the participant with varying reverberation times. The fifth condition was (nearly) anechoic. Out of the recorded sentences, speech rate, creak ratio and harmonics-to-noise ratio were measured along with mean, maximum and movement of intensity and pitch. The measurements were then assessed with various statistical methods. The results of the study show a significant decrease in speech rate caused by an increasing reverberation time. Additionally, speech rate was the highest in the anechoic condition. Moreover, creak ratio decreased greatly when reverberation time increased to more than one second especially on male speakers and end-weighted sentences. Additionally, monotonousness was higher in reverberated conditions than the anechoic condition. However, substantial speaker-dependent differences in the effects of reverberation on speech were found. Moreover, sentence weight was found to influence speech more fundamentally than reverberation. The results suggest that rooms with average reverberation times, rather than particularly long or short, seem the most beneficial for speaking. This observation corresponds to previous studies. Further research on the field is required to extract valuable knowledge needed in acoustical design of spaces, including classrooms. Designing speaker-friendly spaces helps to preserve occupational speakers’ voices throughout their careers.
  • Nyberg, Romina (Helsingin yliopisto, 2021)
    This thesis explores the family language policy (FLP) of mixed-language families living in Finland. More and more children are born in multicultural families, where parents have different first languages, and many of them wonder what language strategy to use in the home environment to be beneficial for the language development of their children. Sharing circumstances with other parents in multicultural families, and having a personal interest in multilingualism drove my interest in investigating the family language policy of mixed-language families who reside in Finland; how the daily use of more than one language is established, implemented and managed at the family level. With three main objectives - 1) identifying parental language practices, 2) examining parental views on multilingualism, 3) identifying influencing factors of language choice – this thesis intends to offer an overview of the family language policies employed by parents, and to reveal possible insightful information about attitudes towards language use. It also aims to highlight areas where parents who raise multilingual children in Finland might need practical guidance and support. A survey was conducted through an online questionnaire across Finland among parents of children up to 17 years old and whose spouses have different first languages. The questionnaire was both quantitative and qualitative in nature. The quantitative data was analysed by means of descriptive statistics, and for analysing the qualitative data, an inductive approach was used based on a thematic analysis performed at a semantic level. The main results identified one parent - one language (OPOL) as the most preferred language practice and showed that parents’ determination and plan to employ a language separation strategy does not fully materialize into practice. The type of parental language practice differs among parents of children from different age groups. Despite the myriad of factors that influence parents’ language choice, their family language policies seem to be oriented around a similar language ideology, one that places value on first language transmission and on equal early multilingual acquisition. The transmission of first language appears to be intrinsic to the nature of parenthood. In addition to the main findings, the timing of introducing a new language and the limited availability of language resources for minority languages were identified as the areas where parents who raise multilingual children in Finland need guidance and support. The results and findings of this study deepen our knowledge and understanding of relevant aspects and challenges related to the family language policies of mixed-language families.
  • Nyholm, Sabine (Helsingin yliopisto, 2020)
    Universella meningsrepresentationer och flerspråkig språkmodellering är heta ämnen inom språkteknologi, specifikt området som berör förståelse för naturligt språk (natural language understanding). En meningsinbäddning (sentence embedding) är en numerisk skildring av en följd ord som motsvaras av en hel fras eller mening, speficikt som ett resultat av en omkodare (encoder) inom maskininlärning. Dessa representationer behövs för automatiska uppgifter inom språkteknologi som kräver förståelse för betydelsen av en hel mening, till skillnad från kombinationer av enskilda ords betydelser. Till sådana uppgifter kan räknas till exempel inferens (huruvida ett par satser är logiskt anknutna, natural language inference) samt åsiktsanalys (sentiment analysis). Med universalitet avses kodad betydelse som är tillräckligt allmän för att gynna andra relaterade uppgifter, som till exempel klassificering. Det efterfrågas tydligare samförstånd kring strategier som används för att bedöma kvaliteten på dessa inbäddningar, antingen genom att direkt undersöka deras lingvistiska egenskaper eller genom att använda dem som oberoende variabler (features) i relaterade modeller. På grund av att det är kostsamt att skapa resurser av hög kvalitet och upprätthålla sofistikerade system på alla språk som används i världen finns det även ett stort intresse för uppskalering av moderna system till språk med knappa resurser. Tanken med detta är så kallad överföring (transfer) av kunskap inte bara mellan olika uppgifter, utan även mellan olika språk. Trots att behovet av tvärspråkiga överföringsmetoder erkänns i forskningssamhället är utvärderingsverktyg och riktmärken fortfarande i ett tidigt skede. SentEval är ett existerande verktyg för utvärdering av meningsinbäddningar med speciell betoning på deras universalitet. Syftet med detta avhandlingsprojekt är ett försök att utvidga detta verktyg att stödja samtidig bedömning på nya uppgifter som omfattar flera olika språk. Bedömningssättet bygger på strategin att låta kodade meningar fungera som variabler i så kallade downstream-uppgifter och observera huruvida resultaten förbättras. En modern mångspråkig modell baserad på så kallad transformers-arkitektur utvärderas på en etablerad inferensuppgift såväl som en ny känsloanalyssuppgift (emotion detection), av vilka båda omfattar data på en mängd olika språk. Även om det praktiska genomförandet i stor utsträckning förblev experimentellt rapporteras vissa tentativa resultat i denna avhandling.
  • Protassova, Maria Margarita (Helsingin yliopisto, 2021)
    Koronaviruspandemia vaikutti koko yhteiskuntaan vuonna 2020. Myös Suomi sulki valtionrajansa muulta kuin välttämättömältä liikenteeltä. Tästä johtuen kesällä 2020 ulkomaanmatkailijat hävisivät Helsingistä lähes täysin. Matkailijoihin keskittyvät yritykset joutuivat suuntaamaan markkinointinsa uudelleen kotimaisiin asiakkaisiin. Tässä tutkielmassa tarkastellaan, miten markkinoiden uudelleensuuntautuminen on vaikuttanut matkailijoihin keskittyvien yritysten kielenkäyttöön ja kielimaisemaan. Tavoitteena on selvittää paitsi muutokset, myös perustelut niiden takana, samoin kuin syyt sille, että muutosta ei olekaan tapahtunut. Tutkielma keskittyy yritysten kieliasioiden päättäjiin, heidän ratkaisuihinsa sekä heidän tyytyväisyyteensä omiin ratkaisuihinsa. Kielimaisema on sosiolingvistiikan tutkimussuunta, jossa tarkastellaan kielten esillepanoa tietyssä paikassa. Tutkimuksen kohteena ovat usein esimerkiksi katukyltit, mainosjulisteet ja infotaulut, niin julkisten kuin yksityisten tahojen tekemät. Kirjallisuuden mukaan keskeisiä ongelmia alalla on mm. tutkimusmenetelmien kehittymättömyys sekä dynaamisen näkökulman vähäisyys. Tämä tutkielma pyrkii osiltaan korjaamaan näitä puutteita. Aineisto on kerätty kyselylomakkeella sekä jatkohaastattelulla halukkaille. Lomakkeessa kysyttiin muutoksista suomen, ruotsin, englannin ja muiden kielten käytössä yrityksen sosiaalisessa mediassa. kotisivuilla, teksteissä tilojen ulkopuolella, julkisten tilojen sisäpuolella ja henkilöstötiloissa sekä yrityksen sisäisessä viestinnässä. Haastattelussa jokaista ratkaisua pyydettiin perustelemaan. Lisäksi kysyttiin erikseen koronaohjeistusta koskevista teksteistä. Sekä lomakkeessa että haastattelussa käsiteltiin myös vastaajien tyytyväisyyttä omiin kielivalintoihin. Lomakkeeseen vastasi 51 yritystä ja haastatteluihin osallistui näistä kahdeksan. Vastaukset koottiin yhteenvetotaulukoihin, joita analysoitiin pysty- ja vaakasuunnassa eri näkökulmista mahdollisimman kattavien tulosten saamiseksi. Tutkimuksesta selviää, että muutosta kielimaisemassa tapahtui suhteellisen vähän. Muutoksilla oli kuitenkin selkeä suunta: suomen kieltä lisättiin, englannin kieltä vähennettiin ja muut kielet poistettiin lähes kokonaan. Poikkeuksena oli ruotsi, joka selvästi jakoi mielipiteet yritysten kesken. Avaintekijänä yrityksen kielipäätöksiin toimi usein työntekijöiden kielitaito. Päätöksiin vaikuttivat selvästi myös toisaalta ulkomaalaisten turistien puuttuminen, toisaalta maahanmuuttajien ym. suomea osaamattomien asiakkaiden läsnäolo, joka ei ollut muuttunut. 92% vastaajista oli erittäin tai jossain määrin tyytyväisiä kieliratkaisuihinsa pandemian aikana.
  • Palma-Suominen, Saara (Helsingin yliopisto, 2021)
    Maisterintutkielma käsittelee monikielistä nimien tunnistusta. Tutkielmassa testataan kahta lähestymistapaa monikieliseen nimien tunnistukseen: annotoidun datan siirtoa toisille kielille, sekä monikielisen mallin luomista. Lisäksi nämä kaksi lähestymistapaa yhdistetään. Tarkoitus on löytää menetelmiä, joilla nimien tunnistusta voidaan tehdä luotettavasti myös pienemmillä kielillä, joilla annotoituja nimientunnistusaineistoja ei ole suuressa määrin saatavilla. Tutkielmassa koulutetaan ja testataan malleja neljällä kielellä: suomeksi, viroksi, hollanniksi ja espanjaksi. Ensimmäisessä metodissa annotoitu data siirretään kieleltä toiselle monikielisen paralleelikorpuksen avulla, ja näin syntynyttä dataa käytetään neuroverkkoja hyödyntävän koneoppimismallin opettamiseen. Toisessa metodissa käytetään monikielistä BERT-mallia. Mallin koulutukseen käytetään annotoituja korpuksia, jotka yhdistetään monikieliseksi opetusaineistoksi. Kolmannessa metodissa kaksi edellistä metodia yhdistetään, ja kieleltä toiselle siirrettyä dataa käytetään monikielisen BERT-mallin koulutuksessa. Kaikkia kolmea lähestymistapaa testataan kunkin kielen annotoidulla testisetillä, ja tuloksia verrataan toisiinsa. Metodi, jossa rakennettiin monikielinen BERT-malli, saavutti selkeästi parhaimmat tulokset nimien tunnistamisessa. Neuroverkkomallit, jotka koulutettiin kielestä toiseen siirretyillä annotaatioilla, saivat selkeästi heikompia tuloksia. BERT-mallin kouluttaminen siirretyillä annotaatioilla tuotti myös heikkoja tuloksia. Annotaatioiden siirtäminen kieleltä toiselle osoittautui haastavaksi, ja tuloksena syntynyt data sisälsi virheitä. Tulosten heikkouteen vaikutti myös opetusaineiston ja testiaineiston kuuluminen eri genreen. Monikielinen BERT-malli on tutkielman mukaan testatuista parhaiten toimiva metodi, ja sopii myös kielille, joilla annotoituja aineistoja ei ole paljon saatavilla.
  • Mikkonen, Seija (Helsingin yliopisto, 2020)
    Tutkielma tarkastelee selkokielen nominitaivutuksen periaatteiden toteutumista informoivissa selkoteksteissä. Tavoitteena on selvittää, toteutuvatko selkokielen mittarissa olevat nominitaivutuksen kriteerit teksteissä. Selkokielen mittarin avulla voidaan arvioida tekstin selkokielisyyttä. Mittarin kriteereissä kehotetaan suosimaan nominien perusmuotoja sekä välttämään vajaakäyttöisiä sijoja. Lisäksi selvitetään, mitä keinoja selkokirjoittajat ovat käyttäneet muuttaessaan nominien taivutusmuotoja perusmuodoiksi. Tavoitteena on kytkeä tulokset osaksi selkokielen mittarin kehitystyötä. Tutkielman taustalla on funktionaalinen kielikäsitys. Teoriaosa esittelee selkokielen kehittämistä, selkokielen ohjeistusta sekä luetun ymmärtämistä. Aineisto on kerätty korpus- ja kyselytutkimuksen menetelmin. Tutkielmassa vertaillaan kolmea selkokielistä esitettä tai opasta ja yleiskielisiä lähtötekstejä. Kustakin selkokielisestä tekstistä aineistoon kuuluu 1200–1300 sanaa. Kyselyllä selvitetään selkokielen kirjoittajien (n = 21) näkemyksiä sekä keinoja rakentaa tekstiin perusmuotoja. Kvantitatiivisessa tutkimuksessa lasketaan nominien perusmuotojen ja taivutusmuotojen esiintymien määrät. Perusmuotojen rakentumista selvitetään kvalitatiivisin menetelmin analysoimalla yleis- ja selkokielisten tekstien sanapareja sekä kyselytutkimuksen vastauksia. Tulosten mukaan nominien perusmuotoja esiintyy kaikissa selkokielisissä teksteissä enemmän kuin lähtöteksteissä. Myös erikseen tarkasteltujen substantiivien perusmuotoja esiintyy selkokielessä enemmän kuin yleiskielessä. Vajaakäyttöisiä sijoja ei selkoteksteissä ole käytetty. Nominitaivutuksen kriteereiden periaatteet toteutuvat aineistoon kuuluvissa teksteissä. Perusmuodon rakentamisen keinoina on käytetty esimerkiksi lausekkeiden muuttamista sivulauseiksi, lausetyypin muutoksia, sanavalintoja ja aktiivimuotoisia lauseita. Korpus- ja kyselytutkimuksen tulokset tukevat toisiaan, mutta tuloksia ei voida yleistää koskemaan kaikkia informoivia selkotekstejä. Tulosten perusteella selkokielen mittarin nominitaivutuksen kriteereihin esitetään joitakin tarkennuksia.
  • Vilenius, Tuisku (Helsingin yliopisto, 2021)
    Tämän maisterintutkielman tavoitteena oli tuottaa tietoa suomalaisten saamelaiskuvasta selvittämällä, miten suomalaiset kuvailevat saamelaisia ja saamelaisuutta internetkeskusteluissa. Tutkin, mitkä ovat yleisimmät saamelaisiin ja saamelaisuuteen liittyviin teemoihin viittatessa käytetyt adjektiivit, miten ne ovat muuttuneet ajan mittaan, sekä mitkä diskurssit vaikuttavat keskustelijoiden valitsemien adjektiivien taustalla. Tutkimuksen korpusaineistona ovat Suomi24-keskustelupalstan keskustelut vuosina 2001-2017. Aineistossa olevat saamelaisiin viittaavat adjektiivit on analysoitu kriittisen diskurssianalyysin ja alkuperäiskansatutkimuksen näkökulmasta. Analyysin näkökulma on sekä kvalitatiivinen että kvantitatiivinen. Tutkimuksen tuloksena saatuja adjektiiveja on verrattu aiemmasta tutkimuskirjallisuudesta tunnistamiini stereotyyppeihin saamelaisista ja muista alkuperäiskansoista, sekä aiempaan saamelaisdiskursseja käsitelleeseen tutkimukseen. Tutkimuksen kattamalla ajanjaksolla saamelaiskeskustelujen määrä Suomi24:ssä on kasvanut merkittävästi. Tämä osoittaa, että suomalaisten kiinnostus saamelaisia kohtaan on lisääntynyt. Saamelaiskeskustelun sisältö ei kuitenkaan ole muuttunut merkittävästi, vaan samat adjektiivit ovat säilyneet saamelaisten kuvauksissa yleisimpinä koko tutkimuksen kattaman ajan. Saamelaisista keskustellaan pääasiallisesti palstoilla, jotka on tarkoitettu saamelaisalueen paikkakunnille tai nimenomaisesti saamelaiskeskustelulle, mikä kertoo saamelaisuuden näkymättömyydestä yhteiskunnassa. Tutkimuksen perusteella saamelaisia määritellään kahden keskeisen diskurssin kautta: aitous- ja muinaisuusdiskurssin. Toisaalta saamelaiskeskustelu keskittyy saamelaismääritelmän ympärille muodostuneeseen aitousdiskurssiin, jossa keskustelijoiden tavoitteena on määrittää, kuka tai millainen on aito saamelainen. Toisaalta saamelaisia pidetään muinaisena kansana, joka elää perinteidenkunnioittamisen kautta, mutta jolle ei ole paikkaa nykyajassa. Saamelaisten nykyisen monimuotoisuuden kieltäminen toiseuttaa saamelaisia yhteiskunnassa ja kertoo, että suomalaisilla on vain vähän käsitystä saamelaisten tämän hetkisestä elämästä Suomessa.
  • Oppong, Olivia Serwaa (Helsingin yliopisto, 2021)
    This thesis investigates the interaction between lexical tones and pitch reset in Akan, a Kwa language with about 8.1 million native speakers in Ghana (Eberhard et al., 2020). Experimental studies on Akan prosody are limited, although the language has a large first and second language speakers. This study seeks to increase our knowledge of the tone-intonation structure of the Akan language. In an earlier study on Akan complex declarative sentences, pitch reset occurred at the beginning of the content word that followed the clausal marker of an embedded clause (Kügler, 2016). Following a pilot study, a hypothesis was formed for the present study that pitch reset in complex declarative utterances in Akan also occurs within the clausal marker of the dependent clause and not only in the following content word. Focusing on the Asante Twi dialect, a controlled material consisting of 64 complex sentences were created. Five native speakers of Asante Twi were recorded as they produced the 64 sentences and additional 32 complex sentences used as fillers. The Mean f_0 values of the syllables of the subordinate conjunction and the syllables of the word before and after the conjunction were extracted and analysed in R; the statistical analysis was based on a linear mixed model. As expected, a reset in the pitch contour consistently occurred within the subordinate conjunction, contrasting the earlier study. The conjunction was phrased prosodically with the dependent clause to signal the syntactic relationship between the two. The degree of pitch register reset was also dependent on the tonal structure; reset was more significant when the initial tone of the conjunction was High but lesser when the conjunction began with a Low tone. Thus, the results show that lexical tones interact to determine the f_0 contour of Akan utterances and that the intonational contour of utterances is complex in the Akan language.
  • Haakana, Viljami (Helsingin yliopisto, 2020)
    Tämä työ tarkastelee suomen kielen rajageminaation eli loppukahdennuksen aiheuttavien sanojen käyttäytymistä vokaalialkuisten sanojen edellä. Tietyt sananmuodot, kuten herne ja tule, aiheuttavat seuraavan sanan alkukonsonantin pidentymisen: hernekeitto lausutaan ”hernekkeitto” ja tule tänne lausutaan ”tulet tänne”. Vokaalialkuisen sanan edellä (esim. ei aloiteta alusta) tilanne on monimutkaisempi. Työssä kuuntelin ensiksi osia Murteenseuruukorpuksen äänitteistä ja luokittelin mainitun kaltaiset vokaalinetiset tapaukset, joissa konsonanttialkuisen sanan edellä odottaisi konsonantin kahdentumista, neljään eri luokkaan sen mukaan, onko tilanteessa äännetty pitkä glottaalisegmentti, lyhyt glottaaliklusiili, lyhyt narina vai täyskato. Lopputulos oli, että Murteenseuruukorpuksen paikkakunnilta kotoisin olevat 1980-luvulla syntyneet puhujat, Pälkänettä lukuun ottamatta, äänsivät nuo tilanteet nykyäänkin suunnilleen samoin kuin paikkakunnilla äännettiin vanhastaan Lauri Kettusen murrekartan mukaan. Länsi- ja kaakkoismurteissa esiintyi lähes yksinomaan täyttä katoa, savolaismurteissa esiintyi enemmän vaihtelua. Savolaismurteissa oli tilastollisesti merkitsevää se, että glottaaliklusiili jäi todennäköisemmin pois ennen että-sanaa kuin muualla. Analysoin työssä myös itse äänitettyä lukupuhuntaa akustisesti. Sotkamolainen ja pääkaupunkiseutulainen informantti lukivat ääneen tekstin, josta otettujen esimerkkien spektrogrammeja nähdään työssä. Molempien informanttien luennassa oli tyypillistä, että vokaalialkuisen ja vokaaliloppuisen sanan väliin jäi jonkin mittainen perustaajuudeton osuus, joko glottaaliklusiili tai narinaa. Perustaajuudettoman osuuden kesto rajageminaatiollisissa tapauksissa oli kummallakin informantilla sama (ei tilastollisesti merkitsevää eroa), mutta sotkamolaisella perustaajuudettomat osuudet rajageminaatiottomissa tapauksissa olivat keskimäärin lyhyempiä kuin pääkaupunkiseutulaisella puhujalla.
  • Vahtola, Teemu (Helsingin yliopisto, 2020)
    Modernit sanaupotusmenetelmät, esimerkiksi Word2vec, eivät mallinna leksikaalista moniselitteisyyttä luottaessaan kunkin sanan mallinnuksen yhden vektorirepresentaation varaan. Näin ollen leksikaalinen moniselitteisyys aiheuttaa ongelmia konekääntimille ja voi johtaa moniselitteisten sanojen käännökset usein harhaan. Työssä tarkastellaan mahdollisuutta mallintaa moniselitteisiä sanoja merkitysupotusmenetelmän (sense embeddings) avulla ja hyödynnetään merkitysupotuksia valvomattoman konekäännösohjelman (unsupervised machine translation) opetuksessa kieliparilla Englanti-Saksa. Siinä missä sanaupotusmenetelmät oppivat yhden vektorirepresentaation kullekin sanalle, merkitysupotusmenetelmän avulla voidaan oppia useita representaatioita riippuen aineistosta tunnistettujen merkitysten määrästä. Näin ollen yksi valvomattoman konekääntämisen perusmenetelmistä, sanaupotusten kuvaus joukosta lähde- ja kohdekielten yksikielisiä vektorirepresentaatioita jaettuun kaksikieliseen vektoriavaruuteen, voi tuottaa paremman kuvauksen, jossa moniselitteiset sanat mallintuvat paremmin jaetussa vektoriavaruudessa. Tämä mallinnustapa voi vaikuttaa positiivisesti konekäännösohjelman kykyyn kääntää moniselitteisiä sanoja. Työssä merkitysupotusmalleja käytetään saneiden alamerkitysten yksiselitteistämiseen, ja tämän myötä jokainen konekäännösmallin opetusaineistossa esiintyvä sane annotoidaan merkitystunnisteella. Näin ollen konekäännösmalli hyödyntää sanaupotusten sijaan merkitysupotuksia oppiessaan kääntämään lähde- ja kohdekielten välillä. Työssä opetetaan tilastollinen konekäännösmalli käyttäen tavanomaista sanaupotusmenetelmää. Tämän lisäksi opetetaan sekä tilastollinen että neuroverkkokonekäännösmalli käyttäen merkitysupotusmenetelmää. Aineistona työssä käytetään WMT-14 News Crawl -aineistoa. Opetettujen mallien tuloksia verrataan aiempaan konekäännöstutkimuksen automaattisessa arvioinnissa hyvin menestyneeseen tilastolliseen konekäännösmalliin. Lisäksi työssä suoritetaan tulosten laadullinen arviointi, jossa keskitytään yksittäisten moniselitteisten sanojen kääntämiseen. Tulokset osoittavat, että käännösmallit voivat hyötyä merkitysupotusmenetelmästä. Tarkasteltujen esimerkkien perusteella merkitysupotusmenetelmää hyödyntävät konekäännösmallit onnistuvat kääntämään moniselitteisiä sanoja sanaupotusmenetelmää hyödyntävää mallia tarkemmin vastaamaan referenssikäännöksissä valittuja käännöksiä. Näin ollen laadullisen arvioinnin kohdistuessa yksittäisten moniselitteisten sanojen kääntämiseen, merkitysupotusmenetelmästä näyttää olevan hyötyä konekäännösmallien opetuksessa.
  • Hietala, Ville (Helsingin yliopisto, 2018)
    Tutkielmassa tarkastelen, missä tilanteissa japaninkielisessa chat-keskustelussa esiintyy tyylinvaihtoa da-tyylistä desu/masu-tyylin. Nämä tyylit ovat osa laajempaa kokonaisuutta, keigoa, joka suomeksi käännetään usein kohteliaisuuskieleksi. Japanin kielessä sosiaalinen asema on koodattu kohteliaisuusmuodoilla liki jokaiseen virkkeeseen, eli puhujan on tehtävä valinta da-tyylin ja desu/masu-tyylin välillä kuulijasta ja kontekstista riippuen. Da-tyyli on epämuodollinen, läheisten ihmisten käyttävä tyyli, desu/masu-tyyliä sen sijaan käytetään sosiaalisesti korkeammassa asemassa olevia henkilöitä puhuteltaessa. Todellisuus ei kuitenkaan ole näin yksinkertainen, sillä tyylinvaihtoa esiintyy myös epämuodollisissa tilanteissa, joissa perustaso on da-tyyli. Aikaisemmat tutkimukset ovat käsitelleet ennen kaikkea puhuttua kieltä, joten tutkimus täydentää huomiotta jääneen kirjoitetun median vaikutuksen kielenkäyttöön. Internetin keskustelut ovat erittäin epämuodollisia, minkä vuoksi tyylinvaihdon voisi olettaa olevan erittäin vähäistä. Aikaisemmissa tutkimuksissa tyylinvaihtoa on selitetty tyylinvaihtoon sosiaalisten ja psykologisten tekijöiden lisäksi myös diskurssin hallintaan liittyviä tekijöillä sekä kohteliaisuudella. Teorialuvussa tarkastelen siksi nimenomaan japanin kieleen liittyvää tutkimusta sekä verkkokielen tutkimuksen nykytilannetta. Aineisto koostuu videostriimauspalvelu Twitchin 25 eri kanavan chat-huoneista, joiden osallistujamäärä vaihtelee viidestä yli viiteensataan. Analysoin aineistoa kvalitatiivisesti keskusteluanalyyttisin metodein, mutta analyysin tueksi aineistosta pystyi myös luomaan tilastoja desu/masu-tyylin esiintymisfrekvensseistä. Tutkimusessa haen vastauksia seuraaviin kysymyksiin: 1) Mitä kommunikatiivisia funktioita desu/masu-muodolla on anonyymissä keskustelussa, jonka perustaso on da-tyyli? 2) Millä tavalla käytetty media vaikuttaa puhetason valintaan? 3) Millä tavalla anonyymiys ja keskustelun tuttavallisuus vaikuttavat toisiinsa? Analyysiluvussa esittelen erikseen tyylinvaihdolle yhdeksän eri funktiota, joita keskustelussa havaitsin, minkä jälkeen tarkastelin havaintoja aikaisemman teorian valossa. Vaikka keskustelijat pysyttelivät nimimerkkien takana, pysyi keskustelu kohteliaana ja tuttavallisena riippumatta siitä, kuinka tuttuja keskustelijat olivat toisilleen. Funktiot jakautuvat pääasiassa kolmeen eri pääluokkaan, jotka ovat: 1) psykologiset ja sosiaaliset tekijät, 2) diskurssin hallinta ja 3) tyylikeino. Näistä ensimmäiset kaksi ovat myös puhutussa kielessä havaittuja kategorioita, mutta desu/masu-tyylin käyttämistä henkilökohtaisena tyylikeinona esiintyi erittäin runsaasti. Tutkimus ei kuitenkaan pysty selittämään, miksi toiset käyttivät desu/masu-tyyliä usein ja toiset eivät juuri koskaan kontekstin pysyessä täysin samana. Ilmiön tarkastelussa täytyisi olla riittävästi tietoa iän ja sukupuolen kaltaisista sosiolingvistisistä muuttujista, mikä on verkkokielen tutkijoille merkittävä haaste.
  • Spur, Maristella (Helsingin yliopisto, 2021)
    This thesis investigates the roots of Koryo-mar, an endangered language currently spoken by Korean diaspora communities (also called Koryo-saram, lit. ‘Koryo-people’) in post-Soviet countries, such as Kazakhstan and Uzbekistan, to which they had been deported in 1937 from the Russian Far East (RFE). By the end of the 19th century, the language of the first Korean immigrants to the RFE, for the most part peasants from the Northeastern province of Hamgyŏng, had already caught the interest of a few scholars, among which can be distinguished Mikhail P. Pucillo, the author of the first Russian-Korean dictionary. Such volume, the Opyt Russko-Korejskogo Slovarja (1874) was based on the speech of the Koreans he was in contact with, and represents one of the earliest sources for the study of Koryo-mar. On the other hand, the actual research on the Koryo-saram begun in earnest only in the second half of the 20th century, and the work of Songmoo Kho, Koreans in Soviet Central Asia (1987), is often considered one of the most complete surveys on the history and the culture of Central Asian Koreans. It also contains a chapter devoted to Koryo-mar, that includes several wordlists of both native items and loanwords from Russian and other local languages. By comparing the data extracted from the above-mentioned texts, on a lexical and orthographic level, and highlighting their similarities and variations, this research aims at illustrating the genetic ties between the dialects of Northern Hamgyŏng and Koryo-mar, as well as the relationship between the spoken and the written language. Additional information has also been drawn from secondary sources in Early Modern Korean, such as Hŏ Kyung’s Hong Kiltong Chŏn (16th-17th century), Chang Kyehyang’s Ŭmsik Timibang (1670s), and J. S. Gale’s translation of J. Bunyan’s The Pilgrim’s Progress (1895). The research concludes that the forty elements common to Pucillo (1874) and Kho (1987) can be framed into five different relationship scenarios, which describe not only the continuation of lexical and orthographic material between the two texts and their languages, but also assess the latter’s connection to Standard Korean and its historical variants. Moreover, the examination of Pucillo’s usage of Cyrillic in transcribing Korean provides relevant details concerning the articulatory habits of Northeastern Koreans in the late 1800s, which are contextualised within and in contrast to the writing practices of Early Modern Korean, that are known to be extremely inconsistent. This study, based on a philological approach, can aid in outlining a literary tradition that encompasses the historical development of Koryo-mar, which is still an unrecognised minority language, while the analysis of orthographic peculiarities can shed light on the chronology of the spread of certain phonological changes across the whole Korean peninsula.
  • Leal, Rafael (Helsingin yliopisto, 2020)
    In modern Natural Language Processing, document categorisation tasks can achieve success rates of over 95% using fine-tuned neural network models. However, so-called "zero-shot" situations, where specific training data is not available, are researched much less frequently. The objective of this thesis is to investigate how pre-trained Finnish language models fare when classifying documents in a completely unsupervised way: by relying only on their general "knowledge of the world" obtained during training, without using any additional data. Two datasets are created expressly for this study, since labelled and openly available datasets in Finnish are very uncommon: one is built using around 5k news articles from Yle, the Finnish Broacasting Company, and the other, 100 pieces of Finnish legislation obtained from the Semantic Finlex data service. Several language representation models are built, based on the vector space model, by combining modular elements: different kinds of textual representations for documents and category labels, different algorithms that transform these representations into vectors (TF-IDF, Annif, fastText, LASER, FinBERT, S-BERT), different similarity measures and post-processing techniques (such as SVD and ensemble models). This approach allows for a variety of models to be tested. The combination of Annif for extracting keywords and fastText for producing word embeddings out of them achieves F1 scores of 0.64 on the Finlex dataset and 0.73-0.74 on the Yle datasets. Model ensembles are able to raise these figures by up to three percentage points. SVD can bring these numbers to 0.7 and 0.74-0.75 respectively, but these gains are not necessarily reproducible on unseen data. These results are distant from the ones obtained from state-of-the-art supervised models, but this is a method that is flexible, can be quickly deployed and, most importantly, do not depend on labelled data, which can be slow and expensive to make. A reliable way to set the input parameter for SVD would be an important next step for the work done in this thesis.
  • Luoma, Anni (Helsingin yliopisto, 2019)
    This study examines the use of the Latin script in languages where the Latin script is not the official writing system. The aim of the research is to get a general perception of where and why the Latin script is used in those languages. The study concentrates on the use of the Latin script of individual writers, especially in informal writing situations online. The study also examines if the individuals have seen the Latin script used by others. In addition, the study finds out about the keyboard functionality when writing in the Latin and non-Latin scripts. Many case studies have covered the phenomenon of digraphia, which is a situation where one language uses two writing systems. However, a broader crosslinguistic study has not been done on this topic. The Latin script is the dominant script on the Internet which might have an impact on the script choice in online writing. Internet language and chatting are broadly studied but because of the continuously changing nature of the Internet, more research is required on these topics. This study aims to fill in some of the gaps that are left open by previous research. I gathered data by an online questionnaire and by four semi-structured interviews. By means of the questionnaire, I got open question answers and quantitative data from 142 respondents. Additionally, I had four interviews with representative users of different writing systems to get more detailed information about the use of the Latin script. The data was analysed and compared with previous research from the point of view of five groups of different scripts. The general finding of this study is that the respondents choose to write in the Latin script mostly when the non-Latin keyboard in not available or when fast and easy informal writing style is required. The Latin script has many different functions. It is mostly used in online chatting, texting with friends or when one’s personal information needs to be written in travelling documents. However, people prefer to write in the official non-Latin script even though it might sometimes feel difficult or slow to use. The study points out that it cannot be predicted whether a respondent uses the Latin script or not, since the results are mostly very variable. The need or even the eagerness to use the Latin script when it is not the official script, reflects the functions and facilities that are available or unavailable for different scripts.
  • De Bluts, Thomas (Helsingin yliopisto, 2021)
    Graph databases are an emerging technology enticing more and more software architects every day. The possibilities they offer to concretize data is incomparable to what other databases can do. They have proven their efficiency in certain domains such as social network architecture where relational data can be structured in a way that reflects reality better than what Relational Databases could provide. Their usage in linguistics has however been very limited, nearly inexistent, regardless of the countless times where linguists could make great use of a graph. This paper aims to demonstrate some of the use cases where graph databases could be of help to computational linguistics. For all these reasons, this thesis focuses on practical experiments where a Graph Database (in this case, Neo4j) is used to test its capabilities to serve linguistic data. The aim was to give a general starting point for further research on the topic. Two experiments are conducted, one with a continuous flow of relational textual data and one with a static corpus data based on the Universal Dependencies Treebanks. Queries are then performed against the database and the retrieval performances are evaluated. User-friendliness of the tools are also taken into account for the evaluation.