Univariate and multivariate statistical tests in genetic association studies

Näytä kaikki kuvailutiedot

Permalink

http://urn.fi/URN:NBN:fi-fe2017112251848
Julkaisun nimi: Univariate and multivariate statistical tests in genetic association studies
Tekijä: Ruotsalainen, Sanni
Muu tekijä: Helsingin yliopisto, Matemaattis-luonnontieteellinen tiedekunta, Matematiikan ja tilastotieteen laitos
Opinnäytteen taso: pro gradu -tutkielmat
Tiivistelmä: Genome-wide association studies have identified hundreds of genomic loci associated with a wide range of human conditions and quantitative traits, such as cholesterol level and diabetes. However, most of these studies have focused on analysing single traits, even the studies involving multiple related traits. Growing evidence for pleiotropy, where the same genetic locus is associated with multiple traits, supports the idea that multivariate methods could provide a remarkable boost in statistical power compared to univariate methods. In this thesis the main research question is to compare the multivariate Wald test to the corresponding univariate test, and to see when multivariate testing is more useful. My second research question is to compare the multivariate Wald test and another multivariate method called Canonical Correlation Analysis (CCA), and to see if they yield the same result. To examine these topics I performed a simulation study in which I simulated data set with 1,000 genotypes and 1,000 individuals. In addition I simulated bivariate phenotypes that were differently correlated with each other, and the genotypes. I performed the univariate Wald test for each trait against each genotype, and the multivariate Wald test for each trait pair against each genotype. I also performed the corresponding CCA to compare those results with the Wald test. In addition to the simulation study I performed the similar analyses for real data from The National FINRISK Study. I used three different blood lipid measurements, HDL-cholesterol, LDL-cholesterol and triglycerides as example traits, and 157 genomic loci previously known to associate with blood lipid levels. These blood lipid levels were appropriate example traits for this study because they are correlated differently with each other, and they are differently associated with the 157 genomic loci used here. Therefore I found many different combinations of correlation between traits, and directions of genetic effects for different traits. Based on my simulation studies I can say that the multivariate testing is never much worse in terms of power to detect associations than the corresponding univariate tests, and in some cases it is much more powerful. Thus there is no reason not to do the multivariate analysis first in case of studying multiple related traits. Multivariate testing is more powerful in cases where the correlation between the traits is large and the genetic effects for the traits show opposite directions compared to the trait correlation. The least effective multivariate testing is compared to univariate testing when the correlation between the traits is small, and the directions of genetic effects is consistent with the trait correlation. Based on my results multivariate Wald test and CCA yield the same results, with some minor approximation differencies in small sample sizes.Perimänlaajuisten assosiaatioanalyysien avulla on löydetty satoja perimän kohtia, jotka ovat yhteydessä useisiin sairauksiin tai ominaisuuksiin kuten kolesterolitasoihin ja diabetekseen. Useimmat näistä tutkimuksista ovat kuitenkin tutkineet ainoastaan yhtä ominaisuutta kerrallaan, vaikka tutkimus käsittelisikin useita toisiinsa liittyviä muuttujia. Kasvava näyttö siitä, että yksi perimän kohta on yhteydessä useisiin ominaisuuksiin (pleiotropia) tukee ajatusta, että monimuuttujamenetelmät voisivat olla tehokkaampia kuin yhden muuttujan menetelmät. Tutkielmani päätutkimuskysymys on vertailla moniulotteista Waldin testiä vastaavaan yhden muuttujan testiin, ja katsoa millaisissa tilanteissa on tehokkaampaa käyttää monimuuttujatestausta. Toinen tutkimuskysymykseni on vertailla moniulotteista Waldin testiä toiseen monimuuttujamenetelmään, kanoniseen korrelaatioanalysiin (CCA) ja katsoa tuottavatko nämä menetelmät saman tuloksen. Tutkiakseni näitä asioita tein simulaatiotutkimuksen, jossa simuloin aineiston, jossa on 1,000 genotyyppiä 1,000 henkilölle. Tämän lisäksi simuloin muuttujapareja, jotka ovat eri tavoin yhteydessä toisiinsa, sekä simuloituihin genotyyppeihin. Tein jokaiselle muuttujalle yhden muuttujan Waldin testin jokaista genotyyppiä vastaan, sekä jokaiselle muuttujaparille moniulotteisen Waldin testin jokaista genotyyppiä vastaan. Tein myös vastaavat kanoniset korrelaatioanalyysit jotta voin vertailla näitä tuloksia moniulotteisen Waldin testin tuloksiin. Simulaatiotutkimuksen lisäksi tein vastaavat analyysit myös aineistolle FINRISKI-tutkimuksesta. Esimerkkimuuttujinani käytin kolmea veren lipidiarvoa, HDL-kolesterolia, LDL-kolesterolia ja triglyserideja, sekä 157 perimän kohtaa, joiden tiedetään olevan yhteydessä veren lipiditasoihin. Lipiditasot olivat hyvä esimerkki tähän tutkimukseen, koska ne ovat erilailla yhteydessä keskenään, sekä näiden 157 perimän kohtien kanssa. Näin ollen löysin useita erilaisia yhdistelmiä lipidien välisistä yhteyksistä sekä perimän vaikutuksista eri lipideille. Simulaatiotutkimusteni perusteella voimme sanoa, että monimuuttujatestaus on lähes aina vähintään yhtä voimakas havaitsemaan yhteyksiä kuin vastaavat yhden muuttujan testit, ja joissain tapauksissa se on paljon voimakkaampi. Näin ollen ei ole mitään syytä olla suorittamatta monimuuttujatestausta ensin, kun on kyse useista toisiinsa liittyvistä muuttujista. Monimuuttujatestaus on selkeästi voimakkaampi tilanteissa, joissa muuttujien välinen korrelaatio on suurta ja perimän vaikutus näihin muuttujiin on erisuuntaista. Vähiten monimuuttujatestaamisesta on hyötyä yhden muuttujan testiin verrattuna silloin, kun muuttujien välinen korrelaatio on pientä, ja perimän vaikutus muuttujiin on samansuuntaista. Tutkimusteni perusteella voimme myös sanoa, että moniulotteinen Waldin testi ja CCA tuottavat saman tuloksen, joskin pienillä otoskoilla huomataan pieniä approksimaatioeroja.
URI: URN:NBN:fi-fe2017112251848
http://hdl.handle.net/10138/229113
Päiväys: 2017
Oppiaine: Statistics
Tilastotiede
Statistik


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
MT_Sanni_Ruotsalainen.pdf 2.445MB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot