Puuttuvuus GeneRISK-tutkimuksen perustietokyselyssä

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-201711155713
Title: Puuttuvuus GeneRISK-tutkimuksen perustietokyselyssä
Author: Bergman, Paula
Contributor: University of Helsinki, Faculty of Science, Department of Mathematics and Statistics
Publisher: Helsingfors universitet
Date: 2017
Language: fin
URI: http://urn.fi/URN:NBN:fi:hulib-201711155713
http://hdl.handle.net/10138/228857
Thesis level: master's thesis
Discipline: Statistik
Statistics
Tilastotiede
Abstract: Imputoinnilla tarkoitetaan sellaisia tilastollisia menetelmiä, joiden tarkoitus on täydentää puuttuvuutta sisältävää aineistoa. Puuttuvuus on iso ongelma tutkimuksissa, ja usein puuttuvat havainnot ja jopa kokonaiset havaintorivit jätetään huomiotta analyysejä tehdessä. Tämä voi kuitenkin merkittävästi vääristää analyysien tuloksia. Tässä tutkielmassa esitellään erilaisia puuttuvuuden tyyppejä, käydään läpi puuttuvuuden mahdollisia syitä ja perehdytään erilaisiin imputointimenetelmiin. Imputointimenetelmien käyttöä havainnollistetaan esimerkeillä, jotka liittyvät GeneRISK-tutkimuksen perustietokyselyyn. GeneRISK-tutkimuksella pyritään selvittämään erityisesti sydän- ja verisuonitautien taustalla piileviä perinnöllisiä riskitekijöitä, sekä sitä, kuinka riskitiedon saaminen vaikuttaa yksilöiden myöhempään terveyskäyttäytymiseen. Puuttuvuuden tyyppi vaikuttaa imputointimenetelmän valintaan, ja tutkielmassa esitelläänkin niin täysin satunnainen, satunnainen, kuin ei-satunnainenkin puuttuvuus. Lisäksi sivutaan suunniteltua puuttuvuutta ja aineiston rakentamisvaiheessa syntyvää puuttuvuutta. Jos vastauksia puuttuu yksittäisiltä vastaajilta osasta kysymyksiä, on kyse erävastauskadosta, ja jos aineistosta puuttuu kokonaisia havaintorivejä, puhutaan yksikkövastauskadosta. Tutkielmassa keskitytään erävastauskatoon. Tutkielmassa käytetään GeneRISK-tutkimuksen Kymenlaakson sairaanhoito- ja sosiaalipalvelujen kuntayhtymä Carean perustietokyselyaineistosta 18.1.2016 jäädytettyä otosta, ja sieltä valikoituja 1278 havaintoriviä. Tutkielmaan valikoitiin kiinnostuksen kohteena oleviksi muuttujiksi ruokailuun ja liikuntatottumuksiin liittyviä muuttujia, sekä taustamuuttujia. Aineistosta poistettiin kaikki sellaiset rivit, jotka sisälsivät puuttuvuutta näissä muuttujissa, ja tämän jälkeen täydelliseen aineistoon simuloitiin eri tyyppisiä puuttuvuuksia. Puuttuvuutta pyrittiin korjaamaan niin yksinkertaisilla imputointimenetelmillä kuin kahdella erilaisella moni-imputointimenetelmälläkin. Yksinkertaisiin imputointimenetelmiin lukeutuu mm. mediaani-imputointi. Ehdollisten mallien moni-imputoinnin ja yhdistettyjen mallien moniimputoinnin on osoitettu kirjallisuudessa toimivan paremmin kuin yksinkertaisten imputointimallien, mutta tätä ei tässä tutkielmassa pystytty osoittamaan. Yhtenä syynä tähän saattaa olla kiinnostuksen kohteeksi valikoituneiden muuttujien väliset riippumattomuudet, sekä vastaajien keskinäinen samankaltaisuus. Edelleen hyvin yleinen tapa käsitellä puuttuvuutta on jättää se kokonaan huomiotta. Tutkielmassa kuitenkin huomataan, kuinka radikaaliin aineiston hupenemiseen se voi johtaa. Tutkielmassa osoitetaankin erityisesti se, kuinka tärkeää puuttuvuutta on tarkastella monelta eri kantilta aina puuttuvuuden syistä aineiston jatkokäyttötarkoituksiin asti.
Subject: imputointi
moni-imputointi
puuttuvuus
erävastauskato
survey


Files in this item

Total number of downloads: Loading...

Files Size Format View
PaulaBergman_gradu.pdf 921.2Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record