Browsing by Subject "moni-imputointi"

Sort by: Order: Results:

Now showing items 1-4 of 4
  • Valaste, Maria (2004)
    Tutkielman teoriaosassa esitellään ensin kadon ongelmaan liittyvät keskeiset käsitteet. Tämän jälkeen käydään läpi erityyppisiin kadon mekanismeihin soveltuvia menetelmiä sekä laskennallisena apukeinona paneudutaan EM-algoritmiin ja sen toimivuuteen. Sivuutettavissa olevan kadon menetelminä esitellään rajoitetun aineiston analyysi, havaintojen painottaminen ja imputointi. Rajoitetun aineiston analyyseinä käsitellään kokonaisten tapausten analyysiä, joka on ohjelmistopakettien yleisin vaihtoehto puuttuvan tiedon käsittelyyn sekä tarkastellaan myös saatavilla olevien tapausten analyysiä. Havaintojen painottamiseksi esitellään ensin yleisesti Horvitz-Thompson tyyppisen estimaattorin muodostamista ja tämän jälkeen osallistumistodennäköisyyden estimoimista sekä lopuksi painokertoimien muodostamista pitkittäisaineistolle. Imputointimenetelminä tarkastellaan keskiarvo-, ehdollisella keskiarvolla, regressio-, hot deck- ja cold deck –imputointia sekä moni-imputointia. Informatiivisen kadon hallintaan esitellään kaksi uskottavuusfunktiosta faktoroimalla saatavaa mallia: valikoitumismalli ja katotyyppien sekoitusmalli. Tutkielman empiirisessä osassa tarkastellaan tamperelaisista nuorista koostuvaa pitkittäisaineistoa. Aineiston on kerätty Kansanterveyslaitoksessa (Mielenterveyden ja alkoholitutkimuksen osasto) ja Tampereen yliopistossa (Terveystieteiden laitos) vuosina 1983,1989 ja 1999. Työssä mallitetaan nuoren aikuisen masentuneisuutta (Beck Depression Inventory) 22- ja 32-vuoden ikäisenä ja tutkitaan puuttuvien vastausten vaikutusta depression estimointiin. Erävastauskadon korjaamiseen käytettiin moni-imputointia. Aineisto paikattiin käyttäen Amelia ohjelmaa imputointikertojen lukumäärällä viisi. Masennusta kuvaavat mallit muodostettiin sekä kokonaisten tapausten analyysillä että imputoiduilla aineistoilla. Moni-imputoinnin tulosten yhdistämisen jälkeen kokonaisten tapausten analyysin ja moni-imputoinnin tuloksia vertailtiin tilastollisten tunnuslukujen mm. estimaattien, keskivirheiden ja luottamusvälien osalta. Saadut tulokset eivät juuri poikenneet toisistaan. Luottamusvälit olivat hieman kapeammat moni-imputoinnilla saaduille malleille. Tämä ei ollut yllättävää, sillä erävastauskadon määrä oli vähäinen. Malleille suoritetut diagnostiset tarkastelut eivät osoittaneet mitään jatkotoimenpiteitä vaativaa. Ennustemallissa masentuneisuudelle 22-vuotiaana selittäjinä olivat psykosomaattisten oireiden ja itsetunnon mittarit 16-vuotiaana. Malli 32-vuotiaille sisälsi selittäjinä psyykkisten oireiden, itsetunnon ja masentuneisuuden mittarit 22-vuotiaana. Imputointimallia muodostettaessa mielenkiintoinen havainto oli, että katoon liittyvät muuttujat eivät olleet tilastollisesti merkitseviä mallinnettavien muuttujien kannalta. Tutkielman keskeisimmät lähteet ovat Little ja Rubin (2002): Statistical analysis with missing data, Second Edition, Wiley, New York ja Sovio ja Läärä (2002): Puuttuvan datan ongelma ja sen ratkaisukeinoja terveystutkimuksissa, Sosiaalilääketieteellinen aikakauslehti: 39, 312-325.
  • Bergman, Paula (Helsingfors universitet, 2017)
    Imputoinnilla tarkoitetaan sellaisia tilastollisia menetelmiä, joiden tarkoitus on täydentää puuttuvuutta sisältävää aineistoa. Puuttuvuus on iso ongelma tutkimuksissa, ja usein puuttuvat havainnot ja jopa kokonaiset havaintorivit jätetään huomiotta analyysejä tehdessä. Tämä voi kuitenkin merkittävästi vääristää analyysien tuloksia. Tässä tutkielmassa esitellään erilaisia puuttuvuuden tyyppejä, käydään läpi puuttuvuuden mahdollisia syitä ja perehdytään erilaisiin imputointimenetelmiin. Imputointimenetelmien käyttöä havainnollistetaan esimerkeillä, jotka liittyvät GeneRISK-tutkimuksen perustietokyselyyn. GeneRISK-tutkimuksella pyritään selvittämään erityisesti sydän- ja verisuonitautien taustalla piileviä perinnöllisiä riskitekijöitä, sekä sitä, kuinka riskitiedon saaminen vaikuttaa yksilöiden myöhempään terveyskäyttäytymiseen. Puuttuvuuden tyyppi vaikuttaa imputointimenetelmän valintaan, ja tutkielmassa esitelläänkin niin täysin satunnainen, satunnainen, kuin ei-satunnainenkin puuttuvuus. Lisäksi sivutaan suunniteltua puuttuvuutta ja aineiston rakentamisvaiheessa syntyvää puuttuvuutta. Jos vastauksia puuttuu yksittäisiltä vastaajilta osasta kysymyksiä, on kyse erävastauskadosta, ja jos aineistosta puuttuu kokonaisia havaintorivejä, puhutaan yksikkövastauskadosta. Tutkielmassa keskitytään erävastauskatoon. Tutkielmassa käytetään GeneRISK-tutkimuksen Kymenlaakson sairaanhoito- ja sosiaalipalvelujen kuntayhtymä Carean perustietokyselyaineistosta 18.1.2016 jäädytettyä otosta, ja sieltä valikoituja 1278 havaintoriviä. Tutkielmaan valikoitiin kiinnostuksen kohteena oleviksi muuttujiksi ruokailuun ja liikuntatottumuksiin liittyviä muuttujia, sekä taustamuuttujia. Aineistosta poistettiin kaikki sellaiset rivit, jotka sisälsivät puuttuvuutta näissä muuttujissa, ja tämän jälkeen täydelliseen aineistoon simuloitiin eri tyyppisiä puuttuvuuksia. Puuttuvuutta pyrittiin korjaamaan niin yksinkertaisilla imputointimenetelmillä kuin kahdella erilaisella moni-imputointimenetelmälläkin. Yksinkertaisiin imputointimenetelmiin lukeutuu mm. mediaani-imputointi. Ehdollisten mallien moni-imputoinnin ja yhdistettyjen mallien moniimputoinnin on osoitettu kirjallisuudessa toimivan paremmin kuin yksinkertaisten imputointimallien, mutta tätä ei tässä tutkielmassa pystytty osoittamaan. Yhtenä syynä tähän saattaa olla kiinnostuksen kohteeksi valikoituneiden muuttujien väliset riippumattomuudet, sekä vastaajien keskinäinen samankaltaisuus. Edelleen hyvin yleinen tapa käsitellä puuttuvuutta on jättää se kokonaan huomiotta. Tutkielmassa kuitenkin huomataan, kuinka radikaaliin aineiston hupenemiseen se voi johtaa. Tutkielmassa osoitetaankin erityisesti se, kuinka tärkeää puuttuvuutta on tarkastella monelta eri kantilta aina puuttuvuuden syistä aineiston jatkokäyttötarkoituksiin asti.
  • Saarela, Olli (2003)
    Tutkielman alussa tarkastellaan lyhyesti survey-varianssiestimointiin liittyviä keskeisiä käsitteitä Särndalin ym. (1992) esitystavan pohjalta. Tämän jälkeen siirrytään käsittelemään puuttuvuuden vaikutuksia estimointiin. Tähän liittyviä lähteitä ovat esimerkiksi artikkelit Dillman ym. (2002) sekä Lee ym. (2002). Puuttuvuus survey-tutkimuksessa tarkoittaa sitä, että joiltakin otokseen valituilta tutkimusyksiköiltä ei saada mitään halutuista tiedoista tai saadaan vain osittaiset tiedot. Vastaamatta jättäneet voivat poiketa ominaisuuksiltaan systemaattisesti vastanneista. Tämä aiheuttaa harhaa perusjoukon parametrien estimointiin. Imputoinnilla tarkoitetaan puuttuvien arvojen korvaamista mahdollisimman hyvillä estimaateilla. Piste-estimoinnin yhteydessä imputoidut arvot samaistetaan aitoihin havaintoarvoihin. Estimaattorin harhattomuus riippuu tällöin imputoinnin onnistumisesta, mutta systemaattista virhettä tämä menettely ei tuota. Estimaattorien varianssien estimoinnissa tilanne ei ole näin yksinkertainen. Virhevariaatio estimoinnissa voidaan jakaa otantavarianssiin ja imputointivarianssiin. Estimaattorien varianssiestimoinnissa tavoitteena tulisi olla kokonaisvarianssin estimointi. Samaistamalla varianssiestimoinnissa aidot havaintoarvot ja imputoidut arvot jätetään huomiotta se, että imputoidut arvot poikkeavat ominaisuuksiltaan aidoista havainnoista. Tämä johtaa yleensä selvään estimaattorin kokonaisvarianssin aliarviointiin ja virheellisiin luottamusväleihin. Rubin (1978, 1987 ja 1996) on esittänyt moni-imputointia yleiseksi ratkaisuksi puuttuvan tiedon ongelmaan. Uudempia moni-imputointia käsitteleviä artikkeleita ovat julkaisseet esimerkiksi Rässler (2003) ja Zhang (2003). Moni-imputoinnissa jokaisen puuttuvan arvon paikalle poimitaan satunnaisesti m kappaletta hyväksyttäviä vaihtoehtoja, jotka ovat peräisin mahdollisten hyväksyttävien arvojen jakaumasta. Tuloksena on m kappaletta kokonaisia havaintoaineistoja, jotka voidaan analysoida kokonaisiin havaintoaineistoihin soveltuvilla menetelmillä. Lopuksi tulokset yhdistetään, jolloin on mahdollista estimoida imputointien sisäinen varianssikomponentti ja imputointien välinen varianssikomponentti. Moni-imputoinnin käyttö asettaa vaatimuksia käytettävälle imputointimenetelmälle, koska imputoitavien arvojen välisen vaihtelun on tarkoitus kuvata vaihtelua puuttuvien arvojen jakaumassa. Lisäksi moni-imputoinnin yhteydessä on kiinnitettävä huomiota riittävään imputointien lukumäärään. Tämä todetaan pienimuotoisella simulointikokeella, jossa tarkastellaan imputointien lukumäärän vaikutusta moni-imputoidun varianssiestimaattorin käyttäytymiseen. Otoksen uudelleenkäyttöön perustuviin jackknife- ja bootstrap-varianssiestimointimenetelmiin on myös esitetty imputointivarianssin huomioivat korjaukset. Näitä käsitellään pääasiassa artikkelien Rao ja Shao (1992), Rao (1996), Shao ja Sitter (1996) sekä Shao (2002) pohjalta. Lisäksi pohditaan minkälaisissa tilanteissa nämä menetelmät soveltuvat käytettäväksi moni-imputoinnin asemasta. Tutkielman empiirisessä esimerkissä esitetään vaihtoehtoisia ratkaisuja työvoimatilaa kuvaavan muuttujan imputointiin sekä työttömien lukumäärän ja työttömyysasteen estimointiin.
  • Laalo, Marianne (Helsingin yliopisto, 2020)
    Vastauskadon yleistyminen on haitallista, sillä se aiheuttaa ongelmia estimaattien tarkkuuteen sekä luottamusvälien leveyteen. Harhaiseen estimaattiin perustuvat tulokset aiheuttavat virheellisiä tulkintoja. Vastauskatoa voidaan korjata painottamalla aineistoa sekä käyttämällä imputointia puuttuvien arvojen paikkauksessa. Tässä tutkielmassa tarkastellaan vastauskadon korjausmenetelmiä lumipallo-otanta –aineistossa. Tutkielmassa tarkastellaan puuttuneisuuden rakennetta sekä vertaillaan painottamattomia ja painotettuja muuttujia. Lopuksi aineistoa paikataan vielä moni-imputoinnin avulla. Lumipallo-otannassa otos kasvaa lumipallon lailla, kun otokseen jo nimetyt henkilöt nimeävät uusia henkilöitä otokseen. Lumipallo-otannasta on vakiintunut kolme mallia: lineaarinen lumipallo-otanta, eksponentiaalinen syrjimätön lumipallo-otanta sekä eksponentiaalinen syrjivä lumipallo-otanta. Lumipallo-otannan etu on, että sen avulla on mahdollista paikantaa piilossa olevia henkilöitä tai ryhmiä. Aineiston vastaukadon korjauksessa voi käyttää painotusta tai sen lähellä olevaa jälkiositusta. Moni-imputoinnissa imputointikierroksia on vähintään kaksi. Imputoitujen aineistojen avulla tuotetaan estimaatti puuttuvalle arvolle. Tutkielman aineistona on Romanien hyvinvointitutkimus, johon osallistui 365 Suomen romania tai itsensä Suomen romaniksi kokevaa henkilöä. Aineisto kerättiin lumipallo-otannalla helmikuun 2017 ja elokuun 2018 välillä. Tutkimus koostui pitkästä tai lyhyestä haastattelulomakkeesta sekä terveystarkastuksesta. Osallistujat saivat valita vastaavatko pitkään vai lyhyeen lomakkeeseen. Pitkässä lomakkeessa oli 88 kysymystä ja lyhyessä lomakkeessa oli oleellisimmat kysymykset pitkästä lomakkeesta, jolloin kysymyksiä oli 60. Tutkielman ensimmäiset tarkastelut koskevat puuttuneisuutta. Puuttuneisuutta tarkastellaan muutaman muuttujan avulla lyhyen ja pitkän lomakkeen välillä. Toisessa vaiheessa tarkastellaan samojen muuttujien avulla miten painottamaton ja painotettu aineisto eroavat toisistaan. Viimeisessä vaiheessa muodostetaan imputointimallit, joiden pohjalta toteutetaan moni-imputointi. Suhteellisesti suurempi puuttuneisuus lyhyessä lomakkeessa johtuu todennäköisesti siitä, että pitkään lomakkeeseen vastanneet ovat jo lähtökohtaisesti motivoituneempia vastaamaan ja näin ollen antavat enemmän vastauksia. Painotus kertoo, että iäkkäämmät ihmiset ovat aliedustettuina aineistossa. Moni-imputoinnin tulokset osoittavat, että kolmen muodostetun imputointimallin välillä ei ole suurta eroa. Lumipallo-otanta on hyvä otantamenetelmä paikannettaessa piilossa olevia ryhmiä, ja on hyvä asia, että eniten väestötutkimuksissa käytetyn satunnaisotannan rinnalla on muitakin käyttökelpoisia otantamenetelmiä. Lumipallo-otannalla saatuihin tuloksiin on kuitenkin syytä suhtautua varauksella eikä niiden yleistäminen ja vertailu ole täysin ongelmatonta.