Browsing by Subject "korpuslingvistiikka"

Sort by: Order: Results:

Now showing items 1-20 of 23
  • Pantzar, Ella (Helsingin yliopisto, 2021)
    Tutkielmassa tarkastellaan modaalisten lauseadverbiaalien esiintymistä oppijanruotsissa. Tutkimuksen tavoitteena on selvittää, mitkä modaaliset lauseadverbiaalit esiintyvät kielenoppijoiden teksteissä eri taitotasoilla, ja miten lauseadverbiaalien käyttö eroaa L1- ja L2-ruotsissa. Kielenoppijoiden tekstejä verrataan kahteen eri ensikielen aineistoon: oppikirjateksteihin ja blogiteksteihin. Vertailulla pyritään havaitsemaan modaalisten lauseadverbiaalien mahdollista yli- tai alikäyttöä kielenoppijoiden teksteissä. Lisäksi tutkimuksessa arvioidaan automaattisesti annotoitujen korpusten soveltuvuutta tämän tyyppiseen tutkimukseen. Tutkimus on korpuspohjainen, ja analyysin teoreettisena pohjana toimii kontrastiivinen välikielianalyysi. Tutkimusmateriaali koostuu yhteensä 25:ä Göteborgin yliopiston Språkbankenin korpuksesta. Taitotasoa tutkimuksessa mitataan Eurooppalaisen kielitaidon viitekehyksen (CEFR) mukaisesti. Tutkimus osoittaa, että modaalisten lauseadverbiaalien käyttö alkaa oppijankielessä taitotasolla A2 sanan kanske käytön alkamisen myötä. Suuremmissa määrin modaalisten lauseadverbiaalien käyttö alkaa kuitenkin vasta taitotasolla B1. Kielitaidon kehittyessä paitsi modaalisten lauseadverbiaalien esiintyvyys, myös niiden leksikaalinen variaatio teksteissä kasvaa. Kanske on selvästi yleisin modaalinen lauseadverbiaali oppijanruotsissa, minkä voidaan olettaa johtuvan ennen kaikkea sanan monikäyttöisyydestä. Myös ju esiintyy yleisesti kielenoppijoiden teksteissä tasolta B1 lähtien, mikä selittynee sanan runsaalla esiintyvyydellä sekä oppikirjateksteissä että puhekielessä. Muista modaalisista lauseadverbiaaleista erityisesti verkligen, naturligtvis ja egentligen esiintyvät yleisesti kielenoppijoiden teksteissä. Vertailu ensikielen aineistoihin osoittaa, että mahdollista modaalisten lauseadverbiaalien alikäyttöä esiintyy kielenoppijoiden teksteissä sanojen väl ja gärna osalta, kun taas sanaa naturligtvis voidaan materiaalin perusteella epäillä ylikäytettävän. Varmojen johtopäätösten tekeminen tämän tutkimuksen materiaalin pohjalta ei kuitenkaan ole mahdollista, vaan edellyttää lisää tutkimusta aiheesta, sillä mahdollinen lauseadverbiaalien yli- tai alikäyttö saattaa selittyä eri tekstityyppien välisillä eroavaisuuksilla. Tutkimuksessa osoitetaan myös automaattisen annotoinnin vaikuttavan vääristävällä tavalla tutkimuksen lopputuloksiin, minkä johdosta tuloksiin täytyy suhtautua kriittisesti. Tutkimuksessa todetaan, että tutkimusmateriaalin edustavuuteen, eri materiaalien keskinäiseen vertailukelpoisuuteen sekä automaattiseen annotointiin liittyvät ongelmat vaikuttavat merkittävästi tulosten luotettavuuteen. Tämän vuoksi varmoja johtopäätöksiä modaalisten lauseadverbiaalien käytöstä oppijanruotsissa ei tämän tutkimuksen perusteella voida tehdä, vaan tulokset tulee nähdä suuntaa antavina. Tutkimus luo kuitenkin hyvän pohjan jatkotutkimuksille aiheesta ja tarjoaa myös hyödyllistä tietoa automaattisen annotoinnin tämänhetkisistä mahdollisuuksista ja haasteista.
  • Hinkkanen, Iida (Helsingfors universitet, 2016)
    Tämä Pro Gradu -tutkielma käsittelee brittiläisillä lastenhoitoa koskevilla verkkosivustoilla esiintyviä sukupuolittuneita vanhemmuusdiskursseja. Tutkimuskysymyksinä on, millaisia vanhemmuusdiskursseja verkkosivuilla esiintyy, tukevatko verkkosivustojen tasa-arvodiskurssit perinteisiä sukupuolirooleja ja onko eri verkkosivustojen välillä eroavaisuuksia yllämainittuja seikkoja koskien. Verkkosivustot babies.co.uk ja babycentre.co.uk valittiin tutkimuskohteiksi niiden suosion ja ilmaisen sisällön takia. Sivustojen artikkeleista kerättiin kaksi pientä korpusta. Verkkosivuston babies.co.uk artikkeleista kerätty korpus sisältää 168 artikkelia ja on kooltaan 144 284 sanaa. Verkkosivuston babycentre.co.uk artikkeleista kerätty korpus sisältää 140 artikkelia ja on kooltaan 122 949 sanaa. Korpuksista etsittiin tiettyjä avainsanoja ja sanapareja, ja niiden lukumäärien ja kontekstien perusteella tutkittiin, millaisia vanhemmuus- ja tasa-arvodiskursseja verkkosivustoilla esiintyy. Tutkimuksen pohjana käytettiin Jane Sunderlandin vanhemmuusdiskursseja ja Michelle M. Lazarin tasa-arvodiskursseja. Vanhemmuusdiskursseja tutkittiin sanaparin 'your partner' kontekstien avulla. Löydetyt vanhemmuusdiskurssit jaoteltiin sukupuolten välistä tasa-arvoa tukeviin ja perinteisiä sukupuolirooleja ylläpitäviin diskursseihin. Sivuston babies.co.uk artikkeleista kootun korpuksen vanhemmuusdiskursseista tasa-arvoa tukevia diskursseja on 12,5 % ja sukupuolirooleja ylläpitäviä 87,5 %. Vastaavat luvut sivuston babycentre.co.uk artikkeleista kootun korpuksen diskursseille ovat 38,1 % ja 61,9 %. Tasa-arvodiskursseja tutkittiin laskemalla lukumäärät äitisanoille (mother, mum, mummy ja niiden monikot), isäsanoille (father, dad, daddy ja niiden monikot) sekä sukupuolineutraaleille vanhemmuussanoille (parent, parents). Sivuston babies.co.uk artikkeleista kootussa korpuksessa äitisanoja on 211, isäsanoja 62 ja sukupuolineutraaleja vanhemmuussanoja 353. Vastaavat luvut babycentre.co.uk:n artikkeleista kerätylle korpukselle ovat 373 äitisanaa, 163 isäsanaa ja 271 sukupuolineutraalia vanhemmuussanaa. Isäsanat jaoteltiin kontekstiensa perusteella tasa-arvoa tukeviin ja perinteisiä sukupuolirooleja ylläpitäviin. Babies.co.uk-korpuksessa näistä sanoista tasa-arvoa tukevassa kontekstissa esiintyy 55,5 % ja sukupuolirooleja tukevassa kontekstissa 44,4 %. Babycentre.co.uk-korpuksessa isäsanojen konteksteista 63,4 % on tasa-arvoa tukevia ja 36,6 % sukupuolirooleja ylläpitäviä. Tutkimustulokset osoittavat, että verkkosivustolla babies.co.uk esiintyvät vanhemmuusdiskurssit ovat suurimmaksi osaksi perinteisiä sukupuolirooleja ylläpitäviä diskursseja. Myös sivuston babycentre.co.uk vanhemmuusdiskursseista yli puolet tukevat perinteisiä sukupuolirooleja. Kummallakin verkkosivustolla äiti mainitaan useammin kuin isä, ja sivustolla babies.co.uk lähes puolet ja sivustolla babycentre.co.uk yksi kolmasosa isäsanoista on perinteisiä sukupuolirooleja ylläpitävässä kontekstissa. Loppupäätelmänä voidaan todeta, että lastenhoitoa käsittelevien verkkosivustojen sisällöntuottajien olisi syytä kiinnittää huomiota siihen, millaisia vanhemmuusdiskursseja he tuottavat. Koska kieli muokkaa todellisuutta, sivustoilla käytetyt ilmaisut eivät ole yhdentekeviä, jos tavoitteena on sukupuolten välinen tasa-arvo niin lastenhoidossa kuin työelämässäkin.
  • Laukkanen, Olavi (Helsingin yliopisto, 2019)
    Tutkielma käsittelee persoonapronominien käyttöä Yhdysvaltojen presidenttien kansakunnan tilaa käsittelevissä puheissa (State of the Union Address) poliittisen diskurssianalyysin näkökulmasta ja korpuslingvistiikan kvantitatiivisia menetelmiä hyödyntäen. Työssä selvitetään millaisia funktioita persoonapronomineilla on ja onko niiden käytössä eroja presidenttien välillä tutkimalla niiden frekvenssejä eli esiintymistiheyksiä sekä niiden kollokaatteja eli samassa kontekstissa esiintyviä sanoja. Aineistoni koostuu vuosina 1980-2018 pidetyistä kansakunnan tilaa käsittelevistä puheista, joiden esittäjinä olivat presidentit Ronald Reagan, George H.W. Bush, Bill Clinton, George W. Bush, Barack Obama ja Donald Trump. Kokoamani korpus on kooltaan 219 365 sanaa ja se on annotoitu käyttäen ohjelmaa, joka merkitsee tekstiin sanaluokat (part-of-speech tagger). Korpusanalyysiä varten käytettiin AntConc-tietokoneohjelmaa, joka mahdollistaa frekvenssi- ja kollokaatiohaut. Tutkielma osoittaa, että persoonapronominien käytössä suurimmat erot ovat usein presidentin eri puheiden välillä eivätkä eri presidenttien välillä. Sisäisen vaihtelevuuden laajuus viittaa siihen, ettei eri presidenteillä ole selkeitä tai johdonmukaisia pronominityylejä. Monikon ensimmäisen persoonan pronomineja käytetään puheissa selkeästi eniten verrattuna muihin persoonapronomineihin, mikä saattaa kertoa niiden funktiosta yhteisen amerikkalaisen identiteetin vahvistamisessa ja presidentin halusta esiintyä osana laajempaa yhteisöä. Kollokaatioanalyysi osoittaa, että eri persoonapronomineja käytetään erilaisissa konteksteissa ja erilaisiin tarkoituksiin. Esimerkiksi yksikön ensimmäisen persoonan pronominit esiintyvät usein kommunikaatioverbien ja mentaalisten verbien kanssa, kun taas monikon ensimmäisen persoonan pronominit esiintyvät konteksteissa, joissa käytetään kansallista tai sodankäyntiin liittyvää retoriikkaa. Toisen persoonan pronominit toimivat lauserakenteessa hyvin usein objekteina eivätkä subjekteina, mikä osoittaa niiden olevan keino puhutella yleisöä ja luoda interaktiivinen suhde kuuntelijoihin. Monikon kolmannen persoonan pronomineja käytetään tutkimuksen mukaan lähinnä viittaamaan tavallisiin amerikkalaisiin ja heidän arkielämäänsä.
  • Mäkäräinen, Kimberli (Helsingfors universitet, 2016)
    Pohjoissaamen-, suomen- ja englanninkielisen termistön kokoaminen vertailukorpuksen kautta on alun perin lähtenyt omasta opiskelusta saamen tutkimuksessa, kun huomasin pohjoissaamenkielisen kielitieteen termistön puuttuvan osittain sekä monikielisen termistön puuttuvan kokonaan. Tämä puute hankaloitti kielitieteellisten tekstien käännöstä pohjoissaamesta suomeen tai englantiin ja toisin päin. Näiden asioiden selvittämisestä syntyi minun kandidaattitutkielmani The Creation of a Glossary of Morphology Terms in Northern Sámi, Finnish, and English, jota laajensin sitten tässä pro gradu -tutkielmaksi. Tähän pro gradu -tutkielmaan on lisätty koltansaame neljänneksi kieleksi, koska tammikuusta 2015 alkaen on ollut mahdollista opiskella koltansaameksi koltansaamen kielen perusopintojen opintokokonaisuutta ja syksystä 2016 alkaen on mahdollista opiskella samalla kielellä myös aineopintoja. Perusopintojen opintokokonaisuuteen kuuluvista kursseista neljä käsittelee kielitiedettä ja yksi kääntämistä. Kieli- ja käännöstieteen termistöä tarvitaan paitsi näiden kurssien opetukseen ja opiskeluun myös sen takia, että näiden kurssien nykyopiskelijat ovat jatkossa he, jotka levittävät näitä termejä seuraaville sukupolville oman opetuksen tai käännösten kautta. Opetukseen liittyvän tavoitteen lisäksi toisena tavoitteena tässä tutkielmassa on tarjota koltansaamenkielisille kääntäjille työkaluja kääntää vieraskielisiä kielitieteen julkaisuja ja opetusmateriaalia, varsinkin niitä, joissa käsitellään koltansaamea ja sen rikasta morfologiaa. Kielikohtaiset käsiteanalyysit muoto-opin käsitteille osoittivat, että kielten käsitejärjestelmät ovat hyvin samanlaisia mutta eivät identtisiä. Tämän lisäksi analyysien perusteella oli mahdollista todeta, että pohjoissaamen- ja koltansaamenkielisistä teksteistä puuttui enemmän termejä tekstin käsitteille kuin suomen- ja englanninkielisistä teksteistä. Termittömille käsitteille ehdotetut termit noudattavat koltansaamen lautakunnan terminmuodostusstrategioita ja normituksia. Moni näistä neologismeista löytyi korpusten kokoamisen jälkeen laadituista tai julkaistuista teksteistä. Tulokset myös osoittivat, että kunkin kielen termistössä esiintyy variaatiota ja että sitä oli eniten pohjoissaamen termistössä. Variaation yleisyys voi johtua esimerkiksi siitä, että pohjoissaamea käytetään kolmessa eri maassa, joiden enemmistökielet kuuluvat kahteen eri kielikuntaan, tai siitä, että pohjoissaamen muoto-opin termit ovat nuorempia kuin suomen tai englannin kielen. Nämä asiat voivat myös olla pohjoissaamen näennäisen epäjohdonmukaisesti tehtyjen yhdyssanojen taustalla. Kuitenkaan koltansaamesta ei löytynyt niin paljon variaatiota kuin pohjoissaamesta, joten oletettavasti yleisyys johtuu siitä, että pohjoissaamea käytetään varsin laajasti kolmessa eri maassa, eikä niinkään termien iästä. Tämän tutkielman käsitejärjestelmät kattavat vain pienen osan muoto-opin käsitteistä, joten termistöä on laajennettava, jotta siitä olisi eniten apua. Sen jälkeen termit olisi harmonisoitava ja yhtenäistettävä koltansaamenkielisten terminologien ja lingvistien työryhmän yhteisvoimin. Sen lisäksi tämän tutkielman tuloksia voi käyttää hyväksi mm. inarinsaamen kielitieteen termistön luomisessa.
  • Haavisto, Aino (Helsingin yliopisto, 2019)
    Japanin kielen kirjoitusjärjestelmä on eräs maailman monimutkaisimmista, ja sen oppiminen on haastavaa kaikille japania vieraana kielenä opiskeleville. Japania kirjoitetaan yhdistelemällä kahta foneettista merkistöä (hiragana ja katakana) ja morfografista kanjimerkistöä, jossa merkit kuvaavat morfeemeja eivätkä ainoastaan äänteitä. Erityisesti näiden kiinalaisperäisten kanjimerkkien, joita on Japanissa yleisesti käytössä 2136, opiskelu on työlästä. Tässä tutkielmassa on kehitetty japani vieraana kielenä -opiskelijoille uusi, mahdollisimman tehokas ja helpoksi omaksuttava kanjimerkkien opiskelujärjestys ja vertailtu sitä aiempiin opiskelujärjestyksiin. Tutkielmassa on sovellettu Loachin ja Wangin (2016) kiinan kirjoitusmerkkien opiskelujärjestystä optimoivaa laskennallista algoritmia japanin kielelle. Algoritmi järjestää merkit painottaen niiden yleisyyttä ja muodon yksinkertaisuutta, jotta alusta alkaen kielenoppija oppii hyödyllisiä merkkejä. Tämä ensimmäinen vaihe toteutettiin olemassa olevaa korpusta ja merkkitietokantaa käyttämällä. Toisessa vaiheessa algoritmi tekee järjestyksestä vielä hierarkkisen eli nostaa kunkin merkin komponentit opiskeltavaksi ennen komponenteista koostuvaa yhdistelmämerkkiä. Myös tämä vaihe toteutettiin hyödyntäen valmista, joskin työtä varten muokattua tietokantaa. Tutkimuksessa selvisi algoritmin luomaa järjestystä tarkastellessa, että Loachin ja Wangin algoritmin tuottamaa järjestystä on pidettävä vasta raakaversiona opiskelujärjestyksestä. Erityisesti kanjeihin liittyvien temaattisten kategorioiden huomiotta jättäminen tekee järjestyksestä joiltain osin vaikeasti hahmotettavan. Tämä vuoksi tutkielmassa pohditaan erilaisia mahdollisuuksia kehittää algoritmin tulosta edelleen ja esitellään noin 250 ensimmäiselle merkille algoritmiin perustuva, mutta käsin muokattu järjestys. Luotu järjestys noudattaa edelleen periaatteita yleisten merkkien opettamisesta hierarkkisessa järjestyksessä, mutta hyödyntää lisäksi temaattisia kategorioita merkkien järjestämisessä. Opiskelujärjestyksen luomisen lisäksi työssä tutkittiin tätä järjestystä hyödyntävän oppimateriaalin luomista puoliautomaattisesti korpuksia ja sanakirjatietokantoja hyödyntämällä. Merkeistä luotiin internetiin lista, johon on lisätty kunkin merkin kohdalle mm. yleisiä sanoja sisältäviä esimerkkilauseita. Lisäksi luotiin kertaukseen soveltuva virtuaalinen korttipakka. Tässä työssä tuotettu materiaali muodostaa käyttökelpoisen pohjan, mutta automaattisesti luotua oppimateriaalia on vielä kehitettävä ennen kuin siitä saa käytännössä hyödynnettävää materiaalia. Sekä itse opiskelujärjestystä että oppimateriaalia voidaan parantaa sekä ihmisen tekemällä työllä että muokkaamalla käytettyjä tietokoneohjelmia.
  • Mattila, Elviira (Helsingin yliopisto, 2018)
    Tutkielmani tarkoituksena on tarkastella hollannista amerikanenglantiin lainattuja sanoja. Tutkin, miten hollantilaisten lainasanojen yleisyys ja niiden merkitykset ovat muuttuneet 1810-luvun ja 2000-luvun välillä. Hollanninkielisistä lainasanoista suurin ryhmä on ruokaan liittyvät lainasanat ja toiseksi suurin ryhmä eläin- ja kasvikunnan sanat, joten tutkin näihin kahteen kategoriaan kuuluvia lainasanoja. Hollanninkielisiä sanoja lainattiin amerikanenglantiin sen jälkeen, kun hollantilaiset siirtolaiset saapuivat Pohjois-Amerikkaan 1600-luvulla. Keräsin tutkimani lainasanat Nicoline van der Sijsin kirjasta Cookies, Coleslaw and Stoops: The Influence of Dutch on the North American Languages (2009). Tutkin sanojen yleisyyttä ja merkitysten muutoksia käyttämällä materiaalinani Mark Daviesin kehittämää historiallisen amerikanenglannin korpusta (Corpus of Historical American English; COHA). Käytin myös muita lähteitä tarkistaakseni sanojen merkityksiä ja historiaa. Tutkielmani mukaan yleisimmät hollanninkieliset ruokaan liittyvät lainasanat englannissa ovat brandy, cookie, dope, pancake, waffle, pit ja span. Brandy-sanaa on käytetty englannin kielessä melko tasaisesti vuodesta 1810 lähtien. Cookie on yleistynyt eniten ja 2000-luvulla sen suhteellinen frekvenssi oli 29,59 miljoonaa sanaa kohden, joka on kaikista hollanninkielisistä ruokaan liittyvistä lainasanoista suurin. Lainasanoilla pit ja span esiintyy paljon eri merkityksiä Daviesin korpuksessa, mutta sanat esiintyvät myös hollanninkielisessä merkityksessä huomattavissa määrin. Myös sanat coleslaw, cruller, pot cheese, head cheese, Easter flower, groundhog, weakfish, sea bass, abele ja Antwerp esiintyvät korpuksessa, mutta ne eivät ole läheskään yhtä yleisiä. Merkityksen muutoksia kokivat sanat cookie, pancake ja dope, jotka ovat säilyttäneet alkuperäisen merkityksensä, mutta saaneet lisäksi uusia merkityksiä.
  • Siekkinen, Jenni (Helsingin yliopisto, 2019)
    Tutkielman aiheena ovat ruotsin kieltosanat inte, icke, ej ja ingalunda. Tutkielmassa tarkastellaan näiden sanojen käyttöä korpusten avulla sekä määrällisesti että laadullisesti. Tutkimuksen määrällisen osion tarkoituksena on selvittää, onko sanojen välillä lukumäärällisesti merkittäviä eroja. Laadullisessa osiossa tarkastellaan sanojen syntaktisia rooleja. Lisäksi tutkielmassa selvitetään, minkälaisia eroja sanojen käytössä on suomenruotsalaisten ja ruotsinruotsalaisten tekstien sekä eri tekstilajien välillä. Tutkimuksen aineistona toimivat Göteborgin yliopiston Språkbanken-kielentutkimusyksikön korpukset, jotka ovat käytettävissä Korp-korpustyökalun kautta. Tutkimukseen sisältyy yhdeksän korpuskokoelmaa, joista neljä sisältää suomenruotsalaisia tekstejä ja viisi ruotsinruotsalaisia tekstejä. Aineisto pitää sisällään materiaalia vuosilta 1960–2017, ja pääosa aineistosta on 1990- ja 2000-luvuilta. Lisäksi sekä suomenruotsalaiset että ruotsinruotsalaiset korpukset kattavat seuraavat tekstilajit: kaunokirjallisuus, viranomaistekstit, sanomalehtitekstit sekä internet-tekstit. Tutkimustulokset osoittavat, että inte on yleisin kieltosana koko aineistossa. Kieltosanojen icke, ej ja ingalunda käyttö on puolestaan huomattavasti vähäisempää. Laadullinen analyysi osoittaa muun muassa, että kieltosanat inte ja ingalunda esiintyvät lähes yksinomaan kieltolauseissa. Kieltosanaa icke käytetään ensisijaisesti kieltoprefiksinä. Ej esiintyy sekä kieltolauseissa että ilmauksessa eller ej. Tulokset osoittavat lisäksi, että muodollisia ja vanhahtavia kieltosanoja icke ja ej suositaan viranomaisteksteissä ja tietyssä määrin myös kaunokirjallisuudessa. Suomenruotsalaisten ja ruotsinruotsalaisten tekstien väliset erot ovat pieniä. Tutkimustulosten perusteella on todennäköistä, että inte tulee olemaan yleisin kieltosana kaikissa yhteyksissä myös tulevaisuudessa. Vaikka kieltosanojen icke, ej ja ingalunda käyttö on vähäistä, on silti oletettavaa, että myös näiden sanojen käyttö tulee jatkumaan ainakin tietyissä yhteyksissä.
  • Ciarlanti, Alberto (Helsingfors universitet, 2016)
    This work goes through the study of deception in psychology, forensic sciences and language technology, focusing specifically to the techniques used in language technology to predict deception. Using a corpus of thruthful and deceptive hotel reviews, this work shows a Naïve-Bayes classifier which achieves a 90.4% accuracy rate. This Thesis shows that even though since 1998 text classifier are based on Support Vector Machines, with the corpus used and the features applied to such corpus, my Naïve-Bayes classifier achieves better results than any of the possible SVM counterparts. By studying the categorizer produced and noticing which features are most relevant, I show it is easily possible writing a deceptive review, that the machine classifier labels as truthful. The use of the Regressing Imagery Dictionary as psycholinguistic part of the classifier proved to be as effective as the more expensive and closed source option known as the Linguistic Inquiry and Word Count (LIWC). Also this is the first Thesis in the General Linguistics Department to use the new open source Natural Language Processing library spaCy (https://spacy.io/).
  • Vilenius, Tuisku (Helsingin yliopisto, 2021)
    Tämän maisterintutkielman tavoitteena oli tuottaa tietoa suomalaisten saamelaiskuvasta selvittämällä, miten suomalaiset kuvailevat saamelaisia ja saamelaisuutta internetkeskusteluissa. Tutkin, mitkä ovat yleisimmät saamelaisiin ja saamelaisuuteen liittyviin teemoihin viittatessa käytetyt adjektiivit, miten ne ovat muuttuneet ajan mittaan, sekä mitkä diskurssit vaikuttavat keskustelijoiden valitsemien adjektiivien taustalla. Tutkimuksen korpusaineistona ovat Suomi24-keskustelupalstan keskustelut vuosina 2001-2017. Aineistossa olevat saamelaisiin viittaavat adjektiivit on analysoitu kriittisen diskurssianalyysin ja alkuperäiskansatutkimuksen näkökulmasta. Analyysin näkökulma on sekä kvalitatiivinen että kvantitatiivinen. Tutkimuksen tuloksena saatuja adjektiiveja on verrattu aiemmasta tutkimuskirjallisuudesta tunnistamiini stereotyyppeihin saamelaisista ja muista alkuperäiskansoista, sekä aiempaan saamelaisdiskursseja käsitelleeseen tutkimukseen. Tutkimuksen kattamalla ajanjaksolla saamelaiskeskustelujen määrä Suomi24:ssä on kasvanut merkittävästi. Tämä osoittaa, että suomalaisten kiinnostus saamelaisia kohtaan on lisääntynyt. Saamelaiskeskustelun sisältö ei kuitenkaan ole muuttunut merkittävästi, vaan samat adjektiivit ovat säilyneet saamelaisten kuvauksissa yleisimpinä koko tutkimuksen kattaman ajan. Saamelaisista keskustellaan pääasiallisesti palstoilla, jotka on tarkoitettu saamelaisalueen paikkakunnille tai nimenomaisesti saamelaiskeskustelulle, mikä kertoo saamelaisuuden näkymättömyydestä yhteiskunnassa. Tutkimuksen perusteella saamelaisia määritellään kahden keskeisen diskurssin kautta: aitous- ja muinaisuusdiskurssin. Toisaalta saamelaiskeskustelu keskittyy saamelaismääritelmän ympärille muodostuneeseen aitousdiskurssiin, jossa keskustelijoiden tavoitteena on määrittää, kuka tai millainen on aito saamelainen. Toisaalta saamelaisia pidetään muinaisena kansana, joka elää perinteidenkunnioittamisen kautta, mutta jolle ei ole paikkaa nykyajassa. Saamelaisten nykyisen monimuotoisuuden kieltäminen toiseuttaa saamelaisia yhteiskunnassa ja kertoo, että suomalaisilla on vain vähän käsitystä saamelaisten tämän hetkisestä elämästä Suomessa.
  • Koort, Kim (Helsingin yliopisto, 2020)
    Tutkielma tarkastelee musiikkikappaleiden sanoituksissa esiintyviä sukupuolten välisiä eroja, jotka liittyvät toimijuuden ja representaation ilmentymiin kielessä. Tutkielma pohjautuu sitä varten laadittuun korpukseen, jonka koostamiseen sovelletaan kieliteknologisia menetelmiä. Korpuksen avulla tutkielma selvittää musiikkikappaleiden tyylilajin sekä artistin sukupuolen merkitystä toimijuuteen ja representaatioon liittyvien erojen muodostumiseen. Tutkielma sijoittuu täten korpuslingvistiseen viitekehykseen. Tutkielman aineisto koostuu tutkielmaa varten kerätystä korpuksesta, joka jakaantuu kahteen alakorpukseen. Näistä ensimmäinen sisältää kolmen musiikin tyylilajin (pop, R&B/hip hop ja country) sanoituksia. Toisen alakorpuksen lajittelu on tehty artistin sukupuolen perusteella (mies/nainen). Korpus sisältää noin 4 300:n musiikkikappaleen sanoitukset ja sen koko on noin 1,8 miljoonaa sanaa. Tutkielma soveltaa aineiston analyysiin sekä kvantitatiivisia että kvalitatiivisia menetelmiä. Pääasiallinen tutkimusmenetelmä on korpuslingvistinen analyysi, jonka tuloksia tulkitaan laadullisesta näkökulmasta. Tutkielma ei havainnut eroja toimijuudessa sukupuolten välillä. Representaation osalta tulokset osoittavat sanoituksissa naisiin kohdistuvan ulkonäköperusteisen luonnehdinnan olevan yleisempää verrattuna miehiin. Lisäksi sanoituksissa viitataan naisiin keskimäärin myönteisemmin kuin miehiin. Toimijuuden ja representaation suhteellisen osuuden tarkastelun kautta voidaan todeta naisten olevan miehiä enemmän esillä sanoituksissa. Musiikkikappaleiden tyylilajin ja artistin sukupuolen merkitys tuloksiin on vähäinen. Tutkielma osoittaa, että kieliteknologia tarjoaa uusia mahdollisuuksia luoda korpuksia, jotka on räätälöity tiettyjen tutkimuskysymysten tarkastelua varten.
  • Kyllästinen, Eva-Maria (Helsingfors universitet, 2017)
    Tämä pro gradu -tutkielma tarkastelee suvereniteetti-käsitteen käyttöä ja käsitteellistämistä Britannian kaksikamarisessa parlamentissa 1950-, 1970- ja 1990-luvuilla. Suvereniteetti on kansallisen ja kansainvälisen oikeuden tärkeimpiä käsitteitä. Käsitteellä on yleisesti tarkoitettu poliittisen yhteisön korkeimman vallankäyttäjän ominaisuutta. Suvereniteettiin liitetään myös itsemäärääminen ja itsenäisyys. Politiikan tutkijoiden ja lainharjoittajien parissa ei kuitenkaan vallitse konsensusta sen merkityksestä ja on esitetty käsitteen hylkäämistä sen paradoksaalisuuden vuoksi. Tutkielman tavoitteena on selvittää, mitä dimensioita Britannian parlamentaarikkojen suvereniteettidiskurssit ovat heijastaneet Euroopan integraation ja globalisaation edetessä. Britannia on hyvä tutkimuskohde, koska se on suhtautunut ylikansalliseen päätöksentekoon varauksellisesti. Tutkielman teoreettisessa viitekehyksessä nostetaan esille suvereniteetin monet määritelmät, Britannian parlamentin suvereenisuuden periaate, Euroopan poliittisen järjestelmän ja valtiosuvereenisuuden muotoutuminen sekä konstruktionistinen lähestymistapa suvereniteetin käsitteeseen. Tarkasteltavat vuosikymmenet on valittu niiden poliittisen ja historiallisen merkityksen vuoksi. 1950-luvulla Brittiläinen imperiumi alkoi purkautua ja Schumanin julistuksen myötä elettiin Euroopan yhteisön ensihetket. Vuonna 1973 Britannia liittyi Euroopan yhteisön jäseneksi ja postmodernilla 1990-luvulla globalisaation voidaan nähdä entisestään kiihtyneen. Tutkielmassa suvereniteettia lähestytään sekä määrällisesti että laadullisesti analysoimalla Hansard-korpukseen tallennettuja Britannian parlamentissa käytyjä puheita. Tutkimusaineistona on 900 kolmelta eri vuosikymmeneltä sattumanvaraisesti valittua suvereniteetti-käsitteen sisältävää konkordanssiriviä ja suvereniteetin 30 kollokaatiota. Aineiston analysoimiseksi käsitteelle on luotu seitsemän eri dimensiota, jotka ovat kotimainen dimensio, juridinen dimensio, supranationaalinen dimensio, parlamentaarinen dimensio, kontraktuaalinen dimensio, teoreettinen dimensio ja dekonstruktiivinen dimensio. Kotimainen dimensio viittaa valtion sisäiseen suvereniteettiin, juridinen dimensio ulkoiseen suvereniteettiin, supranationaalinen dimensio toimivallan siirtymiseen ylikansallisille elimille, parlamentaarinen dimensio suvereenia lainsäädäntövaltaa käyttäviin instituutioihin, kontraktuaalinen dimensio kansanvaltaan, teoreettinen dimensio suvereniteetin ontologiaan ja dekonstruktiivinen dimensio suvereniteetin olemattomuuteen tai pahuuteen. Konkordanssirivit on analysoitu dimensioihin ja analyysiosiossa on esitetty laskelmat dimensioiden frekvensseistä ja vertailtu käsitteen kollokaatioprofiileja konkordanssianalyysin tuloksiin. Tutkielman tulokset osoittavat hypoteesin mukaisesti, että juridinen dimensio on ollut korkeimmillaan 1950-luvulla ja parlamentaarinen dimensio 1970-luvulla. 1990-luvulla ei ole nähtävissä hypoteesissa esitettyä dekonstruktiivisen dimension frekvenssin merkittävää kasvua. Sen sijaan 1990-luvulla on lisääntynyt kontraktuaalinen dimensio, mikä indikoi tarvetta painottaa demokraattista valtuutusta vallankäytölle. Kollokaatti national, “kansallinen”, esiintyy kaikkina vuosikymmeninä kahden frekventeimmän kollokaatin ryhmässä. Tämä viittaa siihen, että suvereenisuus liitetään kansallisvaltioiden ensisijaisuutta koskeviin normatiivisiin periaatteisiin. Tutkielman loppupäätelmissä esitetään, että suvereniteetin dimensioiden olemassaolo määräytyy niiden konstruoitumisesta poliittisissa diskursseissa. Suvereniteetin eri dimensioiden tutkiminen on tärkeää, koska suvereniteetti-konstruktio on yhteydessä siihen, kuinka käsitettä harjoitetaan poliittis-oikeudellisissa toimintaympäristöissä. Aikana, jolloin kansallista päätäntävaltaa on delegoitu ylikansallisille elimille, absoluuttisen ja jakamattoman suvereenisuuden klassiseen käsitykseen kohdistuu erityisiä haasteita.
  • Tuominen, Jere (Helsingin yliopisto, 2022)
    This study has the intention of seeing whether Finnish English (FiE) resembles American (AmE) or British English (BrE) more. With that in mind, the two research questions focus on these two sides, first in what are the differences between BrE and AmE, as seen in written form data, and second in how these differences are seen in FiE in terms of which of the two FiE resembles more. Generally speaking, FiE has not been studied extensively and insofar as it has been studied, the current research is mostly been in more sociological domains, examining who use it and where and what is the status of English in Finland and so on. And with that in mind, this study has a more linguistic aim, in that by examining some unique aspects in AmE and BrE, I am trying to determine whether FiE aligns more with BrE or AmE. To do so, keywords and elements are gathered from literature (Algeo (2006) and Darragh (2000)) where differences have been observed. These differences are categorized into three larger groups: spellings, word forms (meaning single word differences larger than just spelling, for example, pronunciation, where meaning is still largely synomatic) and phrases and constructions (meaning multi-word formations). The key elements are first subjected to verification corpora, one in both variants to establish the characteristics and to discover how correct Darragh’s and Algeo’s estimation of differences truly are. When the differences have been established, three FiE corpora are used to likewise discover the same aspects in FiE. The results from FiE corpora are then compared with the results from BrE and AmE corpora to see possible similarities, connections, and differences between them. The results from the study are that at least the academic FiE was a lot like BrE. However, FiE had some aspects where in the tested sets BrE showed some unique characteristics, such as a strong influence of either French or Latin, and in these cases FiE did not resemble BrE, but was more akin to AmE. FiE does also share much of the modernized characteristics of AmE and when it came apparent that for any tested word or phrase a universal version was favored, FiE did not show any deviation from the larger variants. The probable reasoning behind ties with what was discovered in the background research, in the forementioned sociological studies, where the Finnish people had a highly pragmatic approach when it comes to their language use, and as such, it is to be expected that FiE is not simply an offspring of either of the two larger variants, but strives for the most understandable and modern style.
  • Sinnemäki, Kaius; Haakana, Viljami Lauri Juhana (Åbo Akademis förlag, 2021)
    In this article, we research variation in third person plural verb agreement in Finnish traditional dialects. Unlike in standard Finnish, in traditional dialects the main verb does not always agree in number with a third person plural subject. We approach this variation from a typologically informed variationist perspective using data from The Finnish Dialect Syntax Archive. We model variation in agreement with generalized linear mixed effects modelling and use as predictors speaker's age and sex, length of dependency between the subject and the verb, and the plural subject pronouns he and ne, part of whose semantic-pragmatic difference lies in animacy. Verb lemma and individual speaker and their dialect are used as random grouping factors. The results suggest that variation in plural agreement is influenced by speaker's sex, dependency length, and the pronoun. The effect of pronoun type on agreement indicates there is some evidence on noun classes in Finnish.
  • Niemi, Janne (Helsingin yliopisto, 2020)
    Tämän tutkielman aiheena on Marcus Terentius Varron (116-27 eaa) Res Rusticae -teoksen dialogimuotoisen tekstin henkilöhahmojen kieli. Keskeisenä tutkimuskysymyksenä on selvittää, onko teoksessa esiintyvien puhujien välillä havaittavissa kielellisiä eroja. Analyysin pohjana on teoksen kaikki kolme kirjaa kattava digitaalinen tekstikorpus. Aineisto on jäsennetty ja annotoitoitu puupankiksi, joka sisältää tiedot tekstin saneiden muoto-opillisista ominaisuuksista ja dependenssikieliopin mukaisista syntaktisista suhteista. Annotoinnissa on hyödynnetty tietokoneavusteista, automaattista jäsennystä, jonka käyttökelpoisuutta käsillä olevan tutkimuskysymyksen analyysissä työssä myös arvioidaan. Res Rusticaeta on pitkään tutkittu lähinnä maatalousaiheisena ammattikirjallisuutena, mutta uudemmassa tutkimuksessa on alettu kiinnostua teoksen dialogimuodosta, syvällisemmistä merkityksistä ja yhtäläisyyksiä filosofisen dialogin traditioon sekä satiiriin. Tekstissä esiintyvien eri henkilöhahmojen puheen sisällön ja etenkään kielellisten piirteiden eroihin ei kuitenkaan ole aiemmin kiinnitetty erityisempää huomiota. Puupankkiaineisto tekee mahdolliseksi määrällisen analyysin useista erilaisista kielellisistä piirteistä. Tässä työssä tarkastellaan erityisesti funktiosanojen frekvensseissä, ut-rakenteiden ominaisuuksissa ja alistuskonjunktioiden anastrofissa havaituja eroja dialogin puhujien välillä. Funktiosanojen esiintymisfrekvenssejä tutkimalla voidaan saada vihjeitä esimerkiksi eri puhujien mahdollisesti käyttämistä sivulausetyypeistä. Ut-rakenteiden tarkempi tutkiminen puupankkiaineiston avulla on esimerkkinä yksityiskohtaisemmasta lauserakenteiden tarkastelusta. Anastrofi on aiemmassa tutkimuksessa esiin nostettu Varron kielelle tyypillinen. Puhujien välillä havaitut erot kielellisissä piirteissä näyttävät niin vahvoilta, että niiden tutkiminen perusteellisemmin vaikuttaa mielekkäältä. Erilaisten leksikaalisten ja syntaktisten piirteiden takana voi kuitenkin olla moninaisia syitä ja kielellisiä ilmiöitä, joten useimmissa tapauksissa menetelmien tässä tutkielmassa tuottamat havainnot toimivat lähinnä hyvinä vihjeinä perusteellisemman tutkimuksen kohteiksi. Joka tapauksessa käytetyt digitaaliset menetelmät ja erityisesti puupankkien analysointi osoittautuvat tutkimuskysymyksen kannalta hyödyllisiksi ja käyttökelpoisiksi. Lisäksi tämänkaltainen aineiston yleiskuvan tarkastelu parhaimmillaan tuottaa uusia havaintoja sellaisista erityspiirteistä, joihin ei välttämättä muuten tulisi kiinnittäneeksi huomiota.
  • Lauriala, Maisa (Helsingin yliopisto, 2019)
    Tutkielmassa tarkastellaan kahden preposition vaihtelua lausekkeissa vid/på universitet ja vid/på möte sekä lausekkeissa vid/i ålder ja vid/i val. Tavoitteena on selvittää, miten prepositioiden käyttö ja esiintymistiheys vaihtelevat kyseisissä ilmauksissa ja millaisia muutoksia tässä vaihtelussa on nähtävissä eri vuosikymmenten välillä. Lähtökohtana on vid suhteessa på- ja i-prepositioihin. Aiempien tutkimusten ja havaintojen perusteella on nähtävissä viitteitä siitä, että vid-preposition käyttö on vähenemässä, kun taas på ja i ovat yhä yleisempiä. Etenkin på vaikuttaa usein syrjäyttävän vid-preposition. Tutkielman yhtenä tavoitteena on selvittää, missä määrin tulokset tukevat tätä käsitystä. Tutkimuksen aineiston pohjana on kolme sanomalehtikorpusta kolmelta eri vuosikymmeneltä, Press 65, Press 95 ja GP 2013, jotka ovat osa Göteborgin yliopiston ylläpitämän Språkbankenin korpusaineistoa. Korpuksista on Korp-työkalun avulla etsitty kaikki vid- ja på-lausekkeet, joissa preposition rektion muodostavan substantiivilausekkeen pääsana on universitet tai möte sekä vid- ja i-lausekkeet, joissa substantiivilausekkeen pääsana on ålder tai val. Esiintymiä vertaillaan toisiinsa kvantitatiivisesti, mutta pääosin analyysi on kvalitatiivista. Analyysissa tarkastellaan esiintymiä niiden kontekstissa. Esiintymät jaotellaan prepositiolausekkeen syntaktisen funktion mukaan sekä sen perusteella, toimiiko prepositiolauseke hallitsevan lausekkeen vapaana vai pakollisena määritteenä, ja missä määrin hallitsevan lausekkeen pääsanan valenssi vaikuttaa määritteen preposition valintaan. Tarkastelun kohteena ovat myös muut preposition valintaan vaikuttavat tekijät, kuten konstruktiot, joissa prepositiolauseke on taipuvainen esiintymään. Tutkimus osoittaa, että vid-preposition käyttö tarkastelluissa lausekkeissa on vähentynyt merkittävästi suhteessa på- ja i-prepositioon. Selvimmin kehitys näkyy vid/i val -lausekkeessa, jossa vid on menettänyt eniten jalansijaa. Vid/på universitet on lausekkeista ainoa, jossa vid on edelleen yleisempi kuin vaihtoehtoinen prepositio. Merkittävimmät muutokset prepositioiden välisessä vaihtelussa sijoittuvat aikavälille 1965–1995, kun taas muutokset aikavälillä 1995–2013 ovat vähäisempiä. Vanhimman aineiston suppeuden vuoksi tulokset ovat kuitenkin osittain vain suuntaa antavia. Tulokset antavat viitteitä myös siitä, että vid-lausekkeet ovat jossain määrin taipuvaisia esiintymään eri funktiossa ja konstruktioissa kuin vastaavat på- ja i-lausekkeet. Tutkimuksen perusteella voidaan päätellä, että sekä på että i yhä useammin korvaavat vid-preposition. Toisaalta sekä tutkimuksen alussa tehdyt alustavat korpushaut että tarkasteltujen esiintymien analyysi osoittavat, että kehitystä ei voida yleistää koskemaan kaikkia prepositiolausekkeita, joissa vid on vaihdettavissa prepositioon på tai i. Niissä lauseke- ja konstruktiotyypeissä, jotka tulosten perusteella ovat taipuvaisia esiintymään nimenomaan vid-preposition kanssa, sillä vaikuttaa edelleen olevan vakiintunut asema.
  • Yakovleva, Elvira (Helsingfors universitet, 2016)
    Puheverbien rektiossa ilmenevää vaihtelua on tutkittu nykyvenäjän osalta varsin vähän. Tutkielmani tarkoituksena on selvittää rektion vaihtelua sääteleviä mekanismeja ja niihin liittyviä rajoituksia ja vastata kysymykseen, ovatko verbien yhteydessä esiintyvät muodot keskenään synonyymisiä vai liittyykö niiden käyttöön rajoitteita tai muita erityispiirteitä, jotka estävät niiden keskinäisen korvattavuuden kontekstissaan. Tutkimuksen aineiston kokoamisen lähtökohtana olen käyttänyt Leksiko-semantičeskie gruppy russkih glagolov sanakirjaa, jossa verbit on jaettu sen mukaan, mitä yhteisiä semanttisia piirteitä niillä on. Tutkielmassani tarkastelen kolmea verbiryhmää. Ensimmäisen ryhmän muodostavat puheverbit, joiden yhteisenä semanttisena piirteenä on pelkkä puheen tuottaminen (vrt. suomen puhua, sopertaa), toisen verbiryhmän semanttisena piirteenä on viestin suuntaaminen vastaanottajalle (vrt. suomen kertoa, ilmoittaa) ja kolmannen ryhmän yhteisenä piirteenä viestien vaihtaminen kommunikaation osallistujien välillä (vrt. suomen keskustella). Tutkimuksessa analysoituja rektioita ovat V+Acc, V o+Loc, V pro+Acc, V nasčet+Gen, V po povodu+Gen, V otnositel'no+Gen ja V kasatel'no+Gen. Venäjän kansalliskorpuksen avulla sain tarkat luvut eri rektioiden frekvensseistä. Tutkimuksessani olen käyttänyt sekä kvalitatiivisia että kvantitatiivisia tutkimusmenetelmiä. Tutkimustulokset osoittavat, että monissa tapauksissa V+Acc-rakenne ei ole vaihtoehtoinen muoto prepositiorakenteille, koska V+Acc-rakenteen objekti ilmaisee semanttisesti kokonaisobjektia, kun taas prepositiorakenteiden objekti ilmaisee osaobjektia, vrt. esimerkiksi govorit’ pravdu ja govorit’ o pravde. Tämä semanttinen ero aiheuttaa sen, että rakenteet eivät ole keskenään korvattavissa. Prepositiorakenteet ovat perusmerkitykseltään synonyymisiä, mutta niiden käytössä ilmenee mm. tekstin tyyliin ja objektin konkreettisuuteen/abstraktisuuteen liittyviä eroja. V o+Loc-rakenne on tyyliltään neutraali ja esiintyy monissa erilaisissa konteksteissa, kun taas muiden prepositiorakenteiden käyttö rajoittuu enimmäkseen puhekieleen tai ammattikieleen tai rakenne itsessään on väistymässä pois käytöstä. Tällaisia rakenteita ovat mm. V ontositel’no+Gen ja V kasatel’no+Gen. Nykyvenäjässä prepositiorakenteiden välillä on havaittavissa eroja kaikissa kolmessa verbiryhmässä, mutta niiden keskinäinen vaihtelu on silti mahdollinen. Kyseiset rakenteet ovat synonyymisiä. V+Acc-rakenne ja prepositiorakenne eivät ole synonyymisiä, joten vapaasta keskinäisestä vaihtelusta ei voi puhua.
  • Mustajoki, Arto; Pussinen, Olga (University of Helsinki, Department of Slavonic and Baltic Languages and Literatures, 2008)
    Slavica Helsingiensia
  • Huttunen, Kristian (Helsingfors universitet, 2016)
    Pro gradu -tutkielmani käsittelee venäjänkielisiä sopimuksia ja niiden kielellisiä erityispiirteitä korpuslingvistiikan menetelmiä käyttäen. Sopimustekstien tutkiminen korpuslingvistisin menetelmin ei ole kovin yleistä, mistä johtuen suoraan verrannollista aikaisempaa tutkimusta, johon tutkimustuloksia voisi verrata, ei ole saatavilla. Monet sopimusten erikoispiirteistä ovat myös virallisen asiatyylin erikoispiirteitä. Tutkielman lähtökohtana onkin hypoteesi, jonka mukaan sopimukset ovat virallisen asiatyylin alalaji. Tutkielmassa etsitään korpuslingvistisin menetelmin sellaisia venäjänkielisten sopimusten erikoispiirteitä, jotka voisivat tukea hypoteesia. Lisäksi esitellään myös muita sopimusten erikoispiirteitä ja muotoseikkoja. AntConc-ohjelman avulla etsitään sopimusten kaikkein käytetyimmät lekseemit ja N-grammit, joista voidaan tehdä johtopäätöksiä sopimusten ominaispiirteistä ja niiden esiintymisestä. Tutkimustulokset ovat pääosin kvantitatiivisia ja tutkielman kvalitatiiviset tulokset on johdettu niistä. Tutkimusaineistona käytetään mallisopimuksia, joista on muodostettu oma sopimuskorpus, Korpus dogovorov. Mallisopimukset toimivat oikeiden sopimusten pohjina, joten niissä on samoja erikoispiirteitä, kuin oikeissakin sopimuksissa. Lisäksi mallisopimukset ovat helpommin saatavilla, mikä mahdollistaa suuremman aineiston keruun ja kattavampien tutkimustulosten saamisen. Mallisopimukset eivät myöskään sisällä mitään oikeussubjektien salaisia tai henkilökohtaisia tietoja. Aineisto koostuu 735:stä mallisopimuksesta, jotka jakautuvat eri sopimustyyppeihin, kuten kauppasopimuksiin, edustussopimuksiin, vuokrasopimuksiin, työsopimuksiin jne. Aineistoon on pyritty keräämään mahdollisimman laaja kirjo eri sopimustyyppejä. Tutkielmassa perehdytään virallisen asiatyylin erikoispiirteisiin, erityisesti tyylillisiin piirteisiin. Tyylillisiä piirteitä ovat imperatiivisuus, tarkkuus, persoonan häivyttäminen eli persoonattomuus ja standardisoinnin korkea taso. Lisäksi perehdytään lähdekirjallisuudesta löytyviin sopimusten erikoispiirteisiin ja muotoseikkoihin. Tutkimusmetodeina käytetään korpuslingvistisien menetelmien tuottamia tilastollisia lukuja, joista keskeisimmät tässä tutkielmassa ovat absoluuttinen frekvenssi ja yhteisinformaatio MI (mutual information), joka mittaa kollokaatioiden osien todennäköisyyttä esiintyä yhdessä. Näitä menetelmiä hyödyntäen on koottu korpusten hallintaohjelmaa hyväksi käyttäen sopimusten käytetyimmät lekseemit ja N-grammit, jotka koostuvat 2-6:sta sanasta. 2-grammit on lajiteltu ryhmiin, mm. pääsanan ja määreen muodollisten suhteiden mukaan. Käytetyimpiä lekseemejä ja N-grammeja analysoimalla on tultu johtopäätökseen, että sopimukset ovat virallisen asiatyylin alalaji. Virallisen asiatyylin tyylilliset piirteet esiintyvät laajalti tutkimustuloksissa, mikä todistaa hypoteesin paikkansapitävyyden. Tutkimustulokset havainnollistavat myös muita sopimusten erikoispiirteitä, esimerkiksi verbien frekvenssi verrattuna substantiiveihin on normaalia pienempi. Tutkimustuloksista voidaan myös havaita, miten verbit korvataan lauseissa. Myös monet muut virallisen asiatyylin tyylillisten piirteiden ilmaisukeinot, samoin kuin muutkin virallisen asiatyylin ja sopimusten erikoispiirteet, esiintyvät tutkimusaineistossa, mutta niiden esiintyminen ei ole tarpeeksi toistuvaa, jotta ne näkyisivät käytetyimpien lekseemien ja N-grammien joukossa. Esimerkkinä voidaan mainita sopimusten leksikaaliset ja kieliopilliset poikkeamat kirjakielen normeista, joita esiintyy aineistossa. Tämän tutkielman merkittävin tuotos ovat massiiviset lekseemi- ja N-grammilistat, jotka itsessään kertovat paljon sopimusten erikoispiirteistä ja tarjoavat vastauksen kysymykseen, mitä lekseemejä ja kiinteitä sanaliittoja sopimuksissa esiintyy.