Browsing by Subject "puuttuvuus"

Sort by: Order: Results:

Now showing items 1-2 of 2
  • Bergman, Paula (Helsingfors universitet, 2017)
    Imputoinnilla tarkoitetaan sellaisia tilastollisia menetelmiä, joiden tarkoitus on täydentää puuttuvuutta sisältävää aineistoa. Puuttuvuus on iso ongelma tutkimuksissa, ja usein puuttuvat havainnot ja jopa kokonaiset havaintorivit jätetään huomiotta analyysejä tehdessä. Tämä voi kuitenkin merkittävästi vääristää analyysien tuloksia. Tässä tutkielmassa esitellään erilaisia puuttuvuuden tyyppejä, käydään läpi puuttuvuuden mahdollisia syitä ja perehdytään erilaisiin imputointimenetelmiin. Imputointimenetelmien käyttöä havainnollistetaan esimerkeillä, jotka liittyvät GeneRISK-tutkimuksen perustietokyselyyn. GeneRISK-tutkimuksella pyritään selvittämään erityisesti sydän- ja verisuonitautien taustalla piileviä perinnöllisiä riskitekijöitä, sekä sitä, kuinka riskitiedon saaminen vaikuttaa yksilöiden myöhempään terveyskäyttäytymiseen. Puuttuvuuden tyyppi vaikuttaa imputointimenetelmän valintaan, ja tutkielmassa esitelläänkin niin täysin satunnainen, satunnainen, kuin ei-satunnainenkin puuttuvuus. Lisäksi sivutaan suunniteltua puuttuvuutta ja aineiston rakentamisvaiheessa syntyvää puuttuvuutta. Jos vastauksia puuttuu yksittäisiltä vastaajilta osasta kysymyksiä, on kyse erävastauskadosta, ja jos aineistosta puuttuu kokonaisia havaintorivejä, puhutaan yksikkövastauskadosta. Tutkielmassa keskitytään erävastauskatoon. Tutkielmassa käytetään GeneRISK-tutkimuksen Kymenlaakson sairaanhoito- ja sosiaalipalvelujen kuntayhtymä Carean perustietokyselyaineistosta 18.1.2016 jäädytettyä otosta, ja sieltä valikoituja 1278 havaintoriviä. Tutkielmaan valikoitiin kiinnostuksen kohteena oleviksi muuttujiksi ruokailuun ja liikuntatottumuksiin liittyviä muuttujia, sekä taustamuuttujia. Aineistosta poistettiin kaikki sellaiset rivit, jotka sisälsivät puuttuvuutta näissä muuttujissa, ja tämän jälkeen täydelliseen aineistoon simuloitiin eri tyyppisiä puuttuvuuksia. Puuttuvuutta pyrittiin korjaamaan niin yksinkertaisilla imputointimenetelmillä kuin kahdella erilaisella moni-imputointimenetelmälläkin. Yksinkertaisiin imputointimenetelmiin lukeutuu mm. mediaani-imputointi. Ehdollisten mallien moni-imputoinnin ja yhdistettyjen mallien moniimputoinnin on osoitettu kirjallisuudessa toimivan paremmin kuin yksinkertaisten imputointimallien, mutta tätä ei tässä tutkielmassa pystytty osoittamaan. Yhtenä syynä tähän saattaa olla kiinnostuksen kohteeksi valikoituneiden muuttujien väliset riippumattomuudet, sekä vastaajien keskinäinen samankaltaisuus. Edelleen hyvin yleinen tapa käsitellä puuttuvuutta on jättää se kokonaan huomiotta. Tutkielmassa kuitenkin huomataan, kuinka radikaaliin aineiston hupenemiseen se voi johtaa. Tutkielmassa osoitetaankin erityisesti se, kuinka tärkeää puuttuvuutta on tarkastella monelta eri kantilta aina puuttuvuuden syistä aineiston jatkokäyttötarkoituksiin asti.
  • Saarela, Olli (2003)
    Tutkielman alussa tarkastellaan lyhyesti survey-varianssiestimointiin liittyviä keskeisiä käsitteitä Särndalin ym. (1992) esitystavan pohjalta. Tämän jälkeen siirrytään käsittelemään puuttuvuuden vaikutuksia estimointiin. Tähän liittyviä lähteitä ovat esimerkiksi artikkelit Dillman ym. (2002) sekä Lee ym. (2002). Puuttuvuus survey-tutkimuksessa tarkoittaa sitä, että joiltakin otokseen valituilta tutkimusyksiköiltä ei saada mitään halutuista tiedoista tai saadaan vain osittaiset tiedot. Vastaamatta jättäneet voivat poiketa ominaisuuksiltaan systemaattisesti vastanneista. Tämä aiheuttaa harhaa perusjoukon parametrien estimointiin. Imputoinnilla tarkoitetaan puuttuvien arvojen korvaamista mahdollisimman hyvillä estimaateilla. Piste-estimoinnin yhteydessä imputoidut arvot samaistetaan aitoihin havaintoarvoihin. Estimaattorin harhattomuus riippuu tällöin imputoinnin onnistumisesta, mutta systemaattista virhettä tämä menettely ei tuota. Estimaattorien varianssien estimoinnissa tilanne ei ole näin yksinkertainen. Virhevariaatio estimoinnissa voidaan jakaa otantavarianssiin ja imputointivarianssiin. Estimaattorien varianssiestimoinnissa tavoitteena tulisi olla kokonaisvarianssin estimointi. Samaistamalla varianssiestimoinnissa aidot havaintoarvot ja imputoidut arvot jätetään huomiotta se, että imputoidut arvot poikkeavat ominaisuuksiltaan aidoista havainnoista. Tämä johtaa yleensä selvään estimaattorin kokonaisvarianssin aliarviointiin ja virheellisiin luottamusväleihin. Rubin (1978, 1987 ja 1996) on esittänyt moni-imputointia yleiseksi ratkaisuksi puuttuvan tiedon ongelmaan. Uudempia moni-imputointia käsitteleviä artikkeleita ovat julkaisseet esimerkiksi Rässler (2003) ja Zhang (2003). Moni-imputoinnissa jokaisen puuttuvan arvon paikalle poimitaan satunnaisesti m kappaletta hyväksyttäviä vaihtoehtoja, jotka ovat peräisin mahdollisten hyväksyttävien arvojen jakaumasta. Tuloksena on m kappaletta kokonaisia havaintoaineistoja, jotka voidaan analysoida kokonaisiin havaintoaineistoihin soveltuvilla menetelmillä. Lopuksi tulokset yhdistetään, jolloin on mahdollista estimoida imputointien sisäinen varianssikomponentti ja imputointien välinen varianssikomponentti. Moni-imputoinnin käyttö asettaa vaatimuksia käytettävälle imputointimenetelmälle, koska imputoitavien arvojen välisen vaihtelun on tarkoitus kuvata vaihtelua puuttuvien arvojen jakaumassa. Lisäksi moni-imputoinnin yhteydessä on kiinnitettävä huomiota riittävään imputointien lukumäärään. Tämä todetaan pienimuotoisella simulointikokeella, jossa tarkastellaan imputointien lukumäärän vaikutusta moni-imputoidun varianssiestimaattorin käyttäytymiseen. Otoksen uudelleenkäyttöön perustuviin jackknife- ja bootstrap-varianssiestimointimenetelmiin on myös esitetty imputointivarianssin huomioivat korjaukset. Näitä käsitellään pääasiassa artikkelien Rao ja Shao (1992), Rao (1996), Shao ja Sitter (1996) sekä Shao (2002) pohjalta. Lisäksi pohditaan minkälaisissa tilanteissa nämä menetelmät soveltuvat käytettäväksi moni-imputoinnin asemasta. Tutkielman empiirisessä esimerkissä esitetään vaihtoehtoisia ratkaisuja työvoimatilaa kuvaavan muuttujan imputointiin sekä työttömien lukumäärän ja työttömyysasteen estimointiin.