Semantics in Finnish Distributional Language Models

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-201701231116
Title: Semantics in Finnish Distributional Language Models
Author: Venekoski, Viljami
Contributor: University of Helsinki, Faculty of Behavioural Sciences, Institute of Behavioural Sciences
Publisher: Helsingfors universitet
Date: 2016
URI: http://urn.fi/URN:NBN:fi:hulib-201701231116
http://hdl.handle.net/10138/174393
Thesis level: master's thesis
Abstract: Tietokonelingvistiikan menetelmien kehitys erityisesti neuroverkkoihin perustuvien kielimallien saralla on mahdollistanut tekstien ja näissä esiintyvien merkityssisältöjen tehokkaan mallintamisen suurten aineistojen pohjalta. Vaikka useita menetelmiä kielimallien rakentamiseen on esitetty, merkitys eli semantiikka on kuitenkin kompleksinen ilmiö, jonka mallintamisen tarkkuudesta ja validiteetista on esitetty verrattain vähän tutkimusta. Tämän tutkimuksen tarkoituksena on arvioida eri kielimallien validiteettia, erityisesti suhteessa suomenkielisen verkkokeskusteludatan sisältöjen representoimiseen. Malleja ja näihin liittyviä tietokonelingvistiikan menetelmiä arvioidaan kolmessa eri tutkimuksessa, joista kullakin estimoidaan eri semantiikan osa-aluetta. Tutkimuksessa käsitellyt kielimallit rakennettiin hyödyntäen word2vec-työkalua. Mallien opetusaineistona käytettiin yhteensä noin 2,6 miljardia sanetta sisältävää suomenkielisten verkkokeskustelujen Suomi24-korpusta. Yhteensä tutkimuksessa rakennettiin 18 kielimallia, joista kukin eri yhdistelmällä kielidatan ja –mallien käsittelyn menetelmiä. Malleja arvioitiin kolmessa tutkimuksessa. Tutkimuksessa I toteutettiin kyselytutkimus, jossa 55 ihmistä arvioivat 300 sanaparin sanojen samankaltaisuutta ja saatuja ihmisarvioita verrattiin tietokoneen tuottamiin samankaltaisuusarvioihin. Tutkimuksessa II selvitettiin, miten semanttisia suhteita voidaan hyödyntää kielimallin semantiikan arvioinnissa, minkä pohjalta muodostettiin 4 sanan analogioista koostuvat suomenkielinen testiaineisto kielimalleille. Tutkimuksessa III kielimalleja arvioitiin suhteessa niiden suoriutumiseen luokittelutehtävässä, jossa koneoppimisalgoritmi luokitteli mallin pohjalta representoidun Suomi24-keskustelualueen viestin yhteen keskustelualueen temaattisista kategorioista. Tulosten pohjalta voidaan päätellä, että esitetyt arviointimenetelmät ovat riittävän luotettavia ja keskenään komplementaarisia kielimallien semantiikan arvioimiseen. Arvioidut kielimallit puolestaan kykenivät mallintamaan semantiikkaa haastavan suomenkielisen some-aineiston pohjalta, ja aineistonkäsittelyn menetelmät paransivat mallinnuksen tarkkuutta.Advances in computational linguistics have made analyzing large quantities of text data a more feasible task than ever before. In particular, the recent distributional language models hold promise of effective semantic analysis at a low computational cost. Semantics, however, is a multifaceted phenomenon, and although various language model architectures have been presented, there is relatively little research evaluating the semantic validity of such models. The aim of this research is to evaluate the semantic validity of different distributional language models, particularly as tools for representing Finnish language online text data. The models and methods are evaluated based on their performance on three empirical studies, each estimating a different aspect of semantic representation. The language models in the studies were built using word2vec architecture. The models were taught on approximately 2.6 billion tokens from the Suomi24 corpus of Finnish language social media discussions. 18 models were built in total, each with a different combination of feature processing methods. The models were evaluated in three studies. For Study I, a resource consisting of 300 similarity ratings for word pairs from 55 human annotators was collected. This resource was used as an evaluation task by comparing model estimated similarity scores to the human rated similarity judgments. Study II investigated relational semantics as an evaluation method and were operationalized in form of an analogy task, for which a Finnish language resource is presented. In Study III, the language models were evaluated based on their performance in document classification of Suomi24 messages to their respective topics. The results of the Studies indicate that each presented evaluation task is sufficiently reliable method for estimating language model semantic validity. In turn, distributed language models are reported being able to represent semantics given morphologically rich yet fragmentary Finnish language social media data. Feature processing methods are shown to increase the semantic accuracy of language models in most cases, but to a limited extent. If evaluated valid, semantic language technologies are proposed to hold widespread applicability across scientific as well as commercial fields.
Subject: computational linguistics
semantics
natural language processing
distributional semantics
Subject (yso): tietokonelingvistiikka
kieliteknologia
semantiikka
representaatio
Discipline: Cognitive science
Kognitiotiede
Kognitionsvetenskap


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record