Browsing by Subject "imputointi"

Sort by: Order: Results:

Now showing items 1-4 of 4
  • Patronen, Mikko (Helsingin yliopisto, 2020)
    Kato on yksi otanta-aineiston virhelähteistä. Se voi aiheuttaa aineistosta laskettaviin estimaatteihin harhaa, joten sen hallintaan on pyritty kehittämään erilaisia menetelmiä. Yksi tällainen menetelmä on imputointi, eli puuttuviksi jääneiden arvojen korvaaminen hyvin perustelluilla arvoilla. Estimointiin liittyvä epävarmuus tulee parhaiten huomioiduksi moni-imputoinnilla, mikä tarkoittaa useamman imputoidun aineiston muodostamista. Tässä tutkielmassa perehdytään vastauskadon ominaisuuksiin. Imputointimenetelmän valintaan vaikuttaa esimerkiksi imputoitavan muuttujan asteikko sekä oletus kadon taustalla olevasta mekanismista. Imputoinnin apuna voidaan hyödyntää myös mahdollisesti käytössä olevia taustamuuttujia, jotka ovat yhteydessä imputoitavien muuttujien arvoihin ja niissä ilmenevään vastauskatoon. Myös tutkittavan ilmiön teorian kannalta olennaisia muuttujia voidaan hyödyntää. Tutkielmassa tarkastellaan vuoden 2017 tammikuun Kuluttajabarometriaineistosta neljän kysymyksen osa-aineistoa, joka muodostaa kuluttajien luottamusindikaattorin. Kuluttajien luottamusindikaattori kuvaa 18-84 -vuotiaiden suomalaisten näkemyksiä ja odotuksia sekä henkilökohtaisesta että Suomen yleisestä taloustilanteesta. Kiinnostuksen kohteena on erityisesti selvittää, vääristääkö vastauskato aineistosta laskettavia estimaatteja. Tutkielmassa vastauskatoa paikataan moni-imputoimalla käyttäen hot deck -imputointia, jossa puuttuvat tiedot korvataan taustatiedoiltaan mahdollisimman samankaltaisilta vastaajilta kopioiduilla arvoilla. Työssä muodostetaan viisi imputointimallia käyttäen erilaisia yhdistelmiä taustamuuttujista. Taustatieto ikäluokasta osoittautuu tärkeäksi mallimuuttujaksi tulosten kannalta. Imputointimalli ilman ikäluokkatietoa pienentää luottamusindikaattorin estimaattia sekä koko aineiston tasolla että sukupuoliryhmissä. Luottamusindikaattorin arvot estimoituvat alkuperäisen aineiston estimaattia pienemmiksi myös, jos malli perustuu ainoastaan tietoon sukupuolesta.
  • Bergman, Paula (Helsingfors universitet, 2017)
    Imputoinnilla tarkoitetaan sellaisia tilastollisia menetelmiä, joiden tarkoitus on täydentää puuttuvuutta sisältävää aineistoa. Puuttuvuus on iso ongelma tutkimuksissa, ja usein puuttuvat havainnot ja jopa kokonaiset havaintorivit jätetään huomiotta analyysejä tehdessä. Tämä voi kuitenkin merkittävästi vääristää analyysien tuloksia. Tässä tutkielmassa esitellään erilaisia puuttuvuuden tyyppejä, käydään läpi puuttuvuuden mahdollisia syitä ja perehdytään erilaisiin imputointimenetelmiin. Imputointimenetelmien käyttöä havainnollistetaan esimerkeillä, jotka liittyvät GeneRISK-tutkimuksen perustietokyselyyn. GeneRISK-tutkimuksella pyritään selvittämään erityisesti sydän- ja verisuonitautien taustalla piileviä perinnöllisiä riskitekijöitä, sekä sitä, kuinka riskitiedon saaminen vaikuttaa yksilöiden myöhempään terveyskäyttäytymiseen. Puuttuvuuden tyyppi vaikuttaa imputointimenetelmän valintaan, ja tutkielmassa esitelläänkin niin täysin satunnainen, satunnainen, kuin ei-satunnainenkin puuttuvuus. Lisäksi sivutaan suunniteltua puuttuvuutta ja aineiston rakentamisvaiheessa syntyvää puuttuvuutta. Jos vastauksia puuttuu yksittäisiltä vastaajilta osasta kysymyksiä, on kyse erävastauskadosta, ja jos aineistosta puuttuu kokonaisia havaintorivejä, puhutaan yksikkövastauskadosta. Tutkielmassa keskitytään erävastauskatoon. Tutkielmassa käytetään GeneRISK-tutkimuksen Kymenlaakson sairaanhoito- ja sosiaalipalvelujen kuntayhtymä Carean perustietokyselyaineistosta 18.1.2016 jäädytettyä otosta, ja sieltä valikoituja 1278 havaintoriviä. Tutkielmaan valikoitiin kiinnostuksen kohteena oleviksi muuttujiksi ruokailuun ja liikuntatottumuksiin liittyviä muuttujia, sekä taustamuuttujia. Aineistosta poistettiin kaikki sellaiset rivit, jotka sisälsivät puuttuvuutta näissä muuttujissa, ja tämän jälkeen täydelliseen aineistoon simuloitiin eri tyyppisiä puuttuvuuksia. Puuttuvuutta pyrittiin korjaamaan niin yksinkertaisilla imputointimenetelmillä kuin kahdella erilaisella moni-imputointimenetelmälläkin. Yksinkertaisiin imputointimenetelmiin lukeutuu mm. mediaani-imputointi. Ehdollisten mallien moni-imputoinnin ja yhdistettyjen mallien moniimputoinnin on osoitettu kirjallisuudessa toimivan paremmin kuin yksinkertaisten imputointimallien, mutta tätä ei tässä tutkielmassa pystytty osoittamaan. Yhtenä syynä tähän saattaa olla kiinnostuksen kohteeksi valikoituneiden muuttujien väliset riippumattomuudet, sekä vastaajien keskinäinen samankaltaisuus. Edelleen hyvin yleinen tapa käsitellä puuttuvuutta on jättää se kokonaan huomiotta. Tutkielmassa kuitenkin huomataan, kuinka radikaaliin aineiston hupenemiseen se voi johtaa. Tutkielmassa osoitetaankin erityisesti se, kuinka tärkeää puuttuvuutta on tarkastella monelta eri kantilta aina puuttuvuuden syistä aineiston jatkokäyttötarkoituksiin asti.
  • Moisio, Sami (2004)
    Tutkielman tarkoituksena oli käydä läpi surveytutkimuksen erilaisia vaiheita ja esitellä surveytutkimuksen laatuun vaikuttavia osatekijöitä. Pääpaino tutkielmassa oli surveyaineiston editoinnissa ja imputoinnissa. Aineistona editoinnin ja imputointimenetelmien soveltamiseen käytännössä käytin Säteilyturvakeskuksen RATVA-tutkimusaineistoa. RATVA-tutkimuksessa selvitettiin suomalaisten altistumista radonsäteilylle keräämällä postikyselynä tietoja tutkimushenkilöiden ajankäytöstä. RATVA-tutkimuksen suurimmaksi ongelmaksi muodostui poikkeuksellisen laaja vastauskato. Puuttuvien havaintojen paikkaamiseen olen tutkielmassani käyttänyt erilaisia editointi- ja imputointimenetelmiä. Editointimenetelmistä kävin läpi editoinnin sääntöjä, editoinnin vaikutuksia ja roolia surveyprosessin parantamisessa. Imputointimenetelmistä käytin sekä perinteisiä että uusia menetelmiä esim. keskiarvoimputointi, hotdeck-imputointi ja regressioimputointi, moni-imputointi ja regressiopohjainen lähimmän naapurin hotdeck-imputointimenetelmä. Surveyaineiston laatuun vaikuttavista osatekijöistä käsittelin tarkkuutta, relevanssia sekä harhan lähteitä, erityisesti yksikkö- ja erävastauskatoa. Lisäksi tavoitteena oli arvioida mahdollisia syitä RATVA-tutkimuksen suureen vastauskatoon ja arvioida erilaisia keinoja vastauskadon välttämiseen jatkossa toteutettavissa vastaavanlaisissa surveytutkimuksissa. Surveytutkimuksen kyselylomakkeen suunnittelulla voidaan vähentää imputoinnin tarvetta ja pienentää vastauskadon määrää. Pitkät ja vastaajan kannalta raskaat kysymyspatterit lisäävät yksikkövastauskatoa sekä heikentävät aineiston laatua lisäämällä erävastauskatoa. Lyhyemmät ja vastaajalle selvemmät kyselylomakkeet puolestaan lisäävät vastanneiden osuutta ja vähentävät erävastauskadon määrää. Editointimenetelmillä pystyttiin huomattavasti parantamaan RATVA-aineiston laatua ja tilanteeseen sopivilla imputointimenetelmillä voitiin kasvattaa aineiston kokoa niin, että tulokset saatiin vastaamaan suuremman aineiston tuloksia. Tämän tutkielman pohjalta en suosittelisi keskiarvoimputoinnin käyttöä. Keskiarvoimputointi pienentää keinotekoisesti hajontaa antaen harhaan johtavan vaikutelman siitä, että arviot olisivat erittäin tarkkoja. Hotdeck-imputointimenetelmät ja muut aitoon luovuttajaan perustuvat imputoinnit ovat hyviä, koska ne eivät aliestimoi hajontaa, ja imputointiarvot tulevat valituiksi aineiston aitojen havaintojen joukosta, aidoilta luovuttajilta. Imputoituja ja imputoimattomia ajankäyttötuloksia on myös verrattu Tilastokeskuksen tekemän ajankäyttötutkimuksen tuloksiin. Näin on saatu mukaan ulkopuolinen vertailukohde RATVA-tutkimusaineistosta lasketuille ajankäyttötiedoille. Editoimalla ja imputoimalla voidaan parantaa suuresta erä- ja yksikkövastauskadosta kärsivän surveyaineiston laatua. Haittana on se, että editointiin ja imputointiin kuluu paljon rahaa ja aikaa, eikä etukäteen voida tarkasti tietää, kuinka paljon surveyaineiston laatua todella voidaan parantaa editoinnin ja imputoinnin avulla. Tutkielman tärkeimmät lähteet olivat: Groves, Robert, Dillman, Don, Eltinge, John, Little, Roderick (2002). Survey Nonresponse. First edition. Wiley Interscience Publication, New York. Kovar, John, Rancourt, Eric (2003). Workshop on editing and imputation of survey data. IASS and Statistics Canada. Laaksonen, Seppo (2002). Survey metodologia. Helsingin yliopiston tilastotieteen laitoksen syksyn 2002 kurssin luentomateriaali. Nordbotten, Svein (1999). ”Strategies for improving statistical quality”. http://www.unece.org/stats/. Haettu lokakuussa 2003.
  • Saarela, Olli (2003)
    Tutkielman alussa tarkastellaan lyhyesti survey-varianssiestimointiin liittyviä keskeisiä käsitteitä Särndalin ym. (1992) esitystavan pohjalta. Tämän jälkeen siirrytään käsittelemään puuttuvuuden vaikutuksia estimointiin. Tähän liittyviä lähteitä ovat esimerkiksi artikkelit Dillman ym. (2002) sekä Lee ym. (2002). Puuttuvuus survey-tutkimuksessa tarkoittaa sitä, että joiltakin otokseen valituilta tutkimusyksiköiltä ei saada mitään halutuista tiedoista tai saadaan vain osittaiset tiedot. Vastaamatta jättäneet voivat poiketa ominaisuuksiltaan systemaattisesti vastanneista. Tämä aiheuttaa harhaa perusjoukon parametrien estimointiin. Imputoinnilla tarkoitetaan puuttuvien arvojen korvaamista mahdollisimman hyvillä estimaateilla. Piste-estimoinnin yhteydessä imputoidut arvot samaistetaan aitoihin havaintoarvoihin. Estimaattorin harhattomuus riippuu tällöin imputoinnin onnistumisesta, mutta systemaattista virhettä tämä menettely ei tuota. Estimaattorien varianssien estimoinnissa tilanne ei ole näin yksinkertainen. Virhevariaatio estimoinnissa voidaan jakaa otantavarianssiin ja imputointivarianssiin. Estimaattorien varianssiestimoinnissa tavoitteena tulisi olla kokonaisvarianssin estimointi. Samaistamalla varianssiestimoinnissa aidot havaintoarvot ja imputoidut arvot jätetään huomiotta se, että imputoidut arvot poikkeavat ominaisuuksiltaan aidoista havainnoista. Tämä johtaa yleensä selvään estimaattorin kokonaisvarianssin aliarviointiin ja virheellisiin luottamusväleihin. Rubin (1978, 1987 ja 1996) on esittänyt moni-imputointia yleiseksi ratkaisuksi puuttuvan tiedon ongelmaan. Uudempia moni-imputointia käsitteleviä artikkeleita ovat julkaisseet esimerkiksi Rässler (2003) ja Zhang (2003). Moni-imputoinnissa jokaisen puuttuvan arvon paikalle poimitaan satunnaisesti m kappaletta hyväksyttäviä vaihtoehtoja, jotka ovat peräisin mahdollisten hyväksyttävien arvojen jakaumasta. Tuloksena on m kappaletta kokonaisia havaintoaineistoja, jotka voidaan analysoida kokonaisiin havaintoaineistoihin soveltuvilla menetelmillä. Lopuksi tulokset yhdistetään, jolloin on mahdollista estimoida imputointien sisäinen varianssikomponentti ja imputointien välinen varianssikomponentti. Moni-imputoinnin käyttö asettaa vaatimuksia käytettävälle imputointimenetelmälle, koska imputoitavien arvojen välisen vaihtelun on tarkoitus kuvata vaihtelua puuttuvien arvojen jakaumassa. Lisäksi moni-imputoinnin yhteydessä on kiinnitettävä huomiota riittävään imputointien lukumäärään. Tämä todetaan pienimuotoisella simulointikokeella, jossa tarkastellaan imputointien lukumäärän vaikutusta moni-imputoidun varianssiestimaattorin käyttäytymiseen. Otoksen uudelleenkäyttöön perustuviin jackknife- ja bootstrap-varianssiestimointimenetelmiin on myös esitetty imputointivarianssin huomioivat korjaukset. Näitä käsitellään pääasiassa artikkelien Rao ja Shao (1992), Rao (1996), Shao ja Sitter (1996) sekä Shao (2002) pohjalta. Lisäksi pohditaan minkälaisissa tilanteissa nämä menetelmät soveltuvat käytettäväksi moni-imputoinnin asemasta. Tutkielman empiirisessä esimerkissä esitetään vaihtoehtoisia ratkaisuja työvoimatilaa kuvaavan muuttujan imputointiin sekä työttömien lukumäärän ja työttömyysasteen estimointiin.