Classification automatique des SMS : analyse des caractéristiques langagières de deux groupes d’âge

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-201806132530
Title: Classification automatique des SMS : analyse des caractéristiques langagières de deux groupes d’âge
Author: Poutanen, Julia
Contributor: University of Helsinki, Faculty of Arts, Department of Modern Languages
Publisher: Helsingin yliopisto
Date: 2018
URI: http://urn.fi/URN:NBN:fi:hulib-201806132530
http://hdl.handle.net/10138/236112
Thesis level: master's thesis
Abstract: Tämän tutkielman tarkoituksena on tutkia aikuisten ja nuorten kielenkäytön välisiä eroja ranskankielisessä tekstiviestiaineistossa. Eroja tutkitaan luomalla koneoppimista hyödyntävä automaattinen luokittelija, joka kykenee erottelemaan aikuisten ja nuorten tekstiviestit toisistaan. Työssä tarkastellaan luokittelijan antamia tuloksia ja pyritään selvittämään, miten luokittelijan toimintaa voidaan parantaa kielenkäytöstä saatujen tietojen valossa esimerkiksi tutkielmassa määritellyillä piirteillä (engl. feature). Teoriaosassa käsitellään tekstiviestikielen piirteiden lisäksi iän ja kielenkäytön välistä suhdetta sekä kieliteknologialle ja korpuslingvistiikalle tärkeitä käsitteitä. Menetelmänä käytetystä tilastollisesta luokittelijasta esitellään siihen liittyvä olennainen teoria sekä muita tutkielman kannalta tärkeitä käsitteitä. Tutkielman aineisto on kerätty Montpellier’ssä, Ranskassa vuonna 2011, ja se koostuu silloiseen tutkimukseen osallistuneiden lähettämistä tekstiviesteistä. Tekstiviestejä on yhteensä 88 000, ja niistä noin 70 000 käytetään tutkielmassa. Analyysissä keskitytään sekä kielellisiin että teknisiin piirteisiin: tarkastelun kohteina ovat täten sekä malli että aineiston kielelliset piirteet. Tutkimustuloksista selviää, että luokittelija toimii varsin hyvin tekstiviestien erottelussa, mutta tutkielmassa erikseen määritellyt piirteet eivät paranna merkittävästi luokittelijan toimintaa. Piirteistä voidaan kuitenkin tehdä joitakin johtopäätöksiä: tekstiviesteille on tyypillistä keskustelunomainen kielenkäyttö viestin lähettäjän ja vastaanottajan välillä sekä puhekieli. Analysoitujen viestien perusteella voidaan nähdä, että tekstiviestikielen ominaispiirteisiin kuuluvat ääntämistä ja foneettista muotoa heijastavat sanamuodot ja että tekstiviesti muodostanee oman rekisterinsä ranskan kielessä.
Subject: apprentissage automatique
âge
langue française
linguistique informatique
SMS
tekstiviestit
koneoppiminen
ikä
luokittelu
ranskan kieli
kieliteknologia
Discipline: ranskalainen filologia
French Philology
Fransk filologi


Files in this item

Total number of downloads: Loading...

Files Size Format View
Poutanen_Julia_Progradu_2018.pdf 634.3Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record