Bayesläiset menetelmät diskriminatiivisessa ja generatiivisessa luokittelussa

Show full item record



Permalink

http://hdl.handle.net/10138/12322
Title: Bayesläiset menetelmät diskriminatiivisessa ja generatiivisessa luokittelussa
Author: Blomstedt, Paul
Contributor: University of Helsinki, Faculty of Social Sciences, Department of Mathematics and Statistics
Date: 2007-05-14
URI: http://hdl.handle.net/10138/12322
Thesis level: master's thesis
Abstract: Tilastollisessa luokittelussa kiinnostuksen kohteena oleva havaintoyksikkö sijoitetaan tätä kuvaavien havaittujen ominaisuuksien perusteella johonkin luokkaan. Esim. sähköpostiohjelmien roskapostisuodattimet hyödyntävät luokittelumenetelmiä luokitellessaan viestit näiden sisällön perusteella joko roskapostiksi tai ”oikeaksi” sähköpostiviestiksi. Tässä työssä taas tarkastellaan lääketieteellistä sovellusta, jossa potilaan terveydentilaa koskevien tietojen perusteella pyritään päättelemään onko potilaalla jokin määrätty sairaus vai ei. Luokitelussa käytettävä luokittelumalli estimoidaan luokiteltavan havaintoyksikön kanssa samasta perusjoukosta olevasta, valmiiksi luokitellusta aineistosta, jota kutsutaan opetusaineistoksi. Luokittelumalleja voidaan muodostaa monin eri tavoin. Tässä työssä käsiteltävät mallit perustuvat havaintoyksikön ominaisuuksille ehdollistetun, luokkamuuttujan ehdollisen jakauman mallintamiseen. Luokittelija sijoittaa tällöin havaintoyksikön luokkaan, jonka ehdollinen todennäköisyys on suurin. Ehdollisiin todennäköisyyksiin perustuvat luokittelijat voidaan muodostaa joko diskriminatiivisesti tai generatiivisesti. Edellisessä estimoidaan suoraan luokkamuuttujan ehdollista jakaumaa vastaava malli kun taas jälkimmäisessä estimoidaan ensin havaintoyksikön ominaisuuksia kuvaavien muuttujien sekä luokkamuuttujan yhteisjakaumaa vastaava malli, josta etsitty ehdollinen jakauma saadaan käyttämällä Bayesin kaavaa. Tutkimuksessa tarkastellaan binääriseen luokitteluun soveltuvaa, diskriminatiivisesti muodostettavaa logistista regressiota sekä naiivia Bayes-luokittelijaa, joka tiettyjen oletusten vallitessa on tämän generatiivinen vastine. Modernissa tilastotieteessä on viime vuosina huomattavasti lisääntynyt ns. bayesläisten menetelmien käyttö. Ominaista näille menetelmille on kaiken tilastollisen epävarmuuden ilmaiseminen todennäköisyysjakaumien avulla. Tässä työssä tutkitaan kokeellisesti bayesläisen lähestymistavan vaikutusta naiivin Bayes-luokittelijan ja logistisen regressiomallin luokitustarkkuuteen. Tämän lisäksi tarkastellan diskriminatiivisten ja generatiivisten luokittelumallien välisiä eroja ja arvioidaan opetusaineiston koon vaikutusta näiden luokituskykyyn. Luokittelumallien vertailussa käytetään Tampereen yliopistollisesta sairaalasta peräisin olevaa aineistoa, joka koostuu sepelvaltimovarjoainekuvattujen potilaiden terveydentilaa koskevista tiedoista. Luokitustarkkuudeltaan generatiivinen luokittelija oli diskriminatiivista luokittelijaa parempi, joskin erot pienenivät mitä suuremmaksi opetusaineiston kokoa kasvatettiin. Tämä on sopusoinnussa kirjallisuudessa esitetyn tuloksen kanssa, jonka mukaan generatiiviset luokittelijat ovat diskriminatiivisia luokittelijoita tarkempia juuri pienillä opetusaineistoilla kun taas jälkimmäiset ovat tarkempia suurilla opetusaineistoilla. Bayesläisen lähestymistavan soveltaminen paransi jossain määrin kummankin mallin luokituskykyä etenkin pienimmillä opetusaineistoilla.
Description: Endast sammandrag. Inbundna avhandlingar kan sökas i Helka-databasen (http://www.helsinki.fi/helka). Elektroniska kopior av avhandlingar finns antingen öppet på nätet eller endast tillgängliga i bibliotekets avhandlingsterminaler.Only abstract. Paper copies of master’s theses are listed in the Helka database (http://www.helsinki.fi/helka). Electronic copies of master’s theses are either available as open access or only on thesis terminals in the Helsinki University Library.Vain tiivistelmä. Sidottujen gradujen saatavuuden voit tarkistaa Helka-tietokannasta (http://www.helsinki.fi/helka). Digitaaliset gradut voivat olla luettavissa avoimesti verkossa tai rajoitetusti kirjaston opinnäytekioskeilla.
Subject: logistinen regressio
regressioanalyysi
naiivit Bayes-luokittelijat
bayesilainen mallikeskiarvoistaminen
bayesilaiset menetelmät
binääriset luokittelumenetelmät
tilastomenetelmät
priorijakaumat


Files in this item

Total number of downloads: Loading...

Files Size Format View
abstract.pdf 49.12Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record