Cross-Lingual Sentiment Preservation and Transfer Learning in Binary and Multi-Class Classification

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-201812273815
Title: Cross-Lingual Sentiment Preservation and Transfer Learning in Binary and Multi-Class Classification
Author: Kajava, Kaisla
Contributor: University of Helsinki, Faculty of Arts, Department of Modern Languages
Publisher: Helsingin yliopisto
Date: 2018
Language: eng
URI: http://urn.fi/URN:NBN:fi:hulib-201812273815
http://hdl.handle.net/10138/289742
Thesis level: master's thesis
Discipline: kieliteknologia
Language Technology
Språkteknologi
Abstract: Sentimenttianalyysi (sentiment analysis) on nopeasti kehittyvä kieliteknologian ala, jonka päämääränä on automaattisesti tunnistaa luonnollisella kielellä tuotetusta tekstistä subjektiivisia piirteitä. Tyypillisesti sentimenttianalyysissa luokitellaan tekstiä binäärisesti luokkiin ‘positiivinen’ tai ‘negatiivinen’. Moniluokkainen tunneskaala saadaan kuitenkin kasvattamalla mahdollisten sentimenttiluokkien määrää, jolloin mukaan otetaan hienojakoisempia tunteita kuten ‘vihainen’, ‘iloinen’ ja ‘surullinen’. Tekstiklassifikaatiossa käytetään usein ohjattuja koneoppimismenetelmiä. Tämä edellyttää riittävää opetusaineistoa, jonka avulla klassifikaatioalgoritmi voidaan opettaa tunnistamaan tekstistä haluttuja piirteitä. Koska sentimenttianalyysiin tarvittavat opetusaineistot ovat pääosin englanninkielisiä, muunkielisiä aineistoja tuotetaan kääntämällä alkuperäinen aineisto eri kielille. On kuitenkin tärkeää arvioida käännetyn aineiston käytettävyyttä koneoppimisalgoritmien opetuksessa. Kun teksti käännetään kieleltä toiselle, tulee alkuperäisen sentimentti-informaation säilyä ennallaan, jotta tekstiä voidaan luotettavasti käyttää algoritmien opettamiseen. Mikäli sentimentti-informaatio säilyy hyvin käännetyssä tekstissä, kieltenvälisiä sentimenttiaineistoja voidaan koota siirto-oppimismenetelmillä (transfer learning) eli projisoimalla alkuperäiskielisten virkkeiden sentimenttiluokat käännetyille virkkeille. Tämä pro gradu -tutkimus arvioi, missä määrin luonnollisen kielen binäärinen ja moniluokkainen sentimentti-informaatio säilyy samana, kun teksti käännetään kieleltä toiselle. Tutkimusaineistona käytetään paralleeleja virkkeitä alkuperäiskielellä englanniksi sekä käännöksinä suomeksi, ranskaksi ja italiaksi. Sentimentti-informaation säilymistä tutkitaan annotoimalla ensin englanninkieliset virkkeet siten, että tuloksena on sekä binäärinen että moniluokkainen aineisto, jossa kullakin virkkeellä on yksi sentimenttiluokka. Tämän jälkeen kunkin käännetyn kielen paralleelit virkkeet annotoi kaksi erillistä annotoijaa, mistä saadaan vertailukohde alkuperäisille englanninkielille annotaatioille. Lisäksi tutkimus arvioi siirto-oppimismenetelmien hyödyllisyyttä tutkimalla, saavuttavatko koneoppimisalgoritmit samankaltaisia tuloksia käännetyillä aineistoilla, jotka on koottu projisoimalla alkuperäisten aineistojen annotaatiot käännetyille virkkeille, kuin alkuperäisillä englanninkielisillä aineistoilla. Sentimenttiklassifikaatiossa käytetään naiivi Bayes (naïve Bayes), maksimientropia (maximum entropy), monikerroksinen perseptroni (multilayer perceptron) ja tukivektorikone (support vector machine) -klassifikaattoreita. Tutkimustulokset osoittavat, että luonnollisen kielen tekstejä käännettäessä sentimentti-informaatio säilyy hyvin. Tämän perusteella voidaan päätellä, että kieltenvälinen siirto-oppiminen on tarpeeksi luotettava tapa opettaa sentimenttianalyysialgoritmeja. Klassifikaatiotulokset puolestaan osoittavat, että siirto-oppimismenetelmällä opetetut algoritmit saavuttavat luotettavia tuloksia binäärisessä klassifikaatiossa, kun taas vakaa moniluokkainen klassifikaatio vaatii suurempaa aineistoa.
Subject: sentiment analysis
transfer learning
machine learning
annotation
translation
text classification
cross-lingual
naive bayes
maximum entropy
multilayer perceptron
support vector machine


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record