Hämäläinen, Mika
(Helsingfors universitet, 2016)
Tutkimuksen tavoitteena on yhtäältä tunnistaa sarkasmiin liittyviä piirteitä ja toisaalta
luoda malli löydettyjen piirteiden pohjalta koneoppimisalgoritmia varten. Algoritmin
tarkoituksena on tunnistaa sarkasmia automaattisesti.
Sarkasmin piirteitä tutkitaan laadullisin menetelmin valitun korpuksen perusteella.
Korpus koostuu kahden South Park -TV-sarjan ja kahden Archer-TV-sarjan jaksoista
tehdyistä transkriptiosta. Analyysissä ei oteta huomioon kinesiikkaa eikä
paralingvistiikkaa, sillä näiden piirteiden automaattinen tunnistus on
monimutkaisuutensa tähden jätettävä omaksi tutkimushaarakseen.
Analyysin tuloksena löydetään hankalasti tunnistettavaa sarkasmia, kuten sellaista,
joka vaatii mielenteoriaa, sekä helpommin tunnistettavaa sarkasmia, jota värittää
ristiriitaisuus yleistiedon kanssa, sarkasmin eksplisiittinen toteaminen tai relevanssin
maksiimin rikkominen. Myös liioittelu ja ylenpalttisen positiiviset kuvaukset liittyvät
sarkasmiin.
Ohjattua koneoppimisalgoritmia varten kehitettään laskennallinen tapa eristää
seuraava piirrejoukko syötteestä: leksikaalinen taso (kuten liioittelu), sentimentti,
ristiriitaisuus yleistiedon kanssa sekä mielenteoria. Näiden piirteiden eristäminen ei
kuitenkaan ole triviaalia, joten tutkimuksessa esitetään vain approksimaatioita
piirteiden eristämiseen. Perustavanlaatuisempi piirteiden eristäminen vaatii
huomattavan määrän lisätutkimusta, ja se jääkin tulevaisuuden tutkimussuunnaksi.