Browsing by Subject "ohjattu koneoppiminen"

Sort by: Order: Results:

Now showing items 1-2 of 2
  • Melasuo, Elina (Helsingin yliopisto, 2020)
    Pro gradu -tutkielma käsittelee sähköpostin luokittelua. Lähtökohtana on tarve luokitella sähköposteja ohjatun koneoppimisen keinoin niin, että organisaation kirjaamoon tulevat sähköpostit voitaisiin välittää hoidettavaksi oikealle henkilölle organisaatiossa. Tutkielmassa esitellään tekstin luokittelun keinoja, haasteita ja käytäntöjä. Erilaisia tekstin esikäsittelytapoja ja sähköpostin erityispiirteitä kuvaillaan. Tutkielman testiaineisto koostuu tutkijan omista työsähköposteista. Sähköpostien pääkieli on suomi, vaikka englanninkielisiä osia löytyy työn luonteesta johtuen. Aineiston määrä on suhteellisen pieni (1518 sähköpostia) ja epätasapainossa eri henkilöiden, luokkien, kesken. Tutkimuksessa selvitetään, kuinka hyviä luokittelutuloksia saa tämän tyyppisellä aineistolla. Sähköpostiaineiston ollessa kyseessä tutkielmassa selvitetään myös tietosuojaa, luottamuksellisen tiedon käsittelyä ja esitellään aineistoon suoritettuja anonymisointikeinoja. Suomi on voimakkaasti taipuva kieli, ja lemmatisointia käytetään sanamuotojen normalisointimenetelmänä. Luokittelussa sovelletaan Multinomial Naïve Bayes -mallia, joka on generatiivinen todennäköisyysmalli. Piirreirrotusmenetelminä käytetään sanamäärävektoreita ja sanojen frekvenssien painokerroinvektoreita. Suorituskykymittareina käytetään tarkkuutta ja F1-arvoa. Luokittelutulosten parantamiskeinona käytetään hyperparametrien optimointia. Opetus- ja kehitysaineistoon verrattuna tutkimuksen tulokset testiaineiston kanssa ovat tilastollisesti katsottuna heikot. Johtopäätöksenä todetaan, että tutkielmassa käytetty sähköpostien määrä oli liian vähäinen, jotta luokittelija olisi osannut oppia harvinaisemmista luokista. Tutkielman perusteella korostetaan tarpeellisten järjestelmien asentamista, aineiston käsittelyprosessien toteuttamista ja tietosuoja-asioihin perehtymistä jo suunnittelussa ja aineiston keräysvaiheessa. Sähköpostiaineiston suurempaa määrää sekä luokitteluprosessissa käytettävien opetus-, kehitys- ja testiaineistojoukkojen sisältämien sähköpostien samankaltaisuutta suositellaan. Tutkielma voi toimia pohjana ja suunnannäyttäjänä suomenkielisten sähköpostien luokittelun jatkokehityksessä.
  • Hämäläinen, Mika (Helsingfors universitet, 2016)
    Tutkimuksen tavoitteena on yhtäältä tunnistaa sarkasmiin liittyviä piirteitä ja toisaalta luoda malli löydettyjen piirteiden pohjalta koneoppimisalgoritmia varten. Algoritmin tarkoituksena on tunnistaa sarkasmia automaattisesti. Sarkasmin piirteitä tutkitaan laadullisin menetelmin valitun korpuksen perusteella. Korpus koostuu kahden South Park -TV-sarjan ja kahden Archer-TV-sarjan jaksoista tehdyistä transkriptiosta. Analyysissä ei oteta huomioon kinesiikkaa eikä paralingvistiikkaa, sillä näiden piirteiden automaattinen tunnistus on monimutkaisuutensa tähden jätettävä omaksi tutkimushaarakseen. Analyysin tuloksena löydetään hankalasti tunnistettavaa sarkasmia, kuten sellaista, joka vaatii mielenteoriaa, sekä helpommin tunnistettavaa sarkasmia, jota värittää ristiriitaisuus yleistiedon kanssa, sarkasmin eksplisiittinen toteaminen tai relevanssin maksiimin rikkominen. Myös liioittelu ja ylenpalttisen positiiviset kuvaukset liittyvät sarkasmiin. Ohjattua koneoppimisalgoritmia varten kehitettään laskennallinen tapa eristää seuraava piirrejoukko syötteestä: leksikaalinen taso (kuten liioittelu), sentimentti, ristiriitaisuus yleistiedon kanssa sekä mielenteoria. Näiden piirteiden eristäminen ei kuitenkaan ole triviaalia, joten tutkimuksessa esitetään vain approksimaatioita piirteiden eristämiseen. Perustavanlaatuisempi piirteiden eristäminen vaatii huomattavan määrän lisätutkimusta, ja se jääkin tulevaisuuden tutkimussuunnaksi.