Linear mixed models for estimating heritability and testing genetic association in family data

Show full item record

Permalink

http://hdl.handle.net/10138/157774
Title: Linear mixed models for estimating heritability and testing genetic association in family data
Author: Lääperi, Mitja
Contributor: Helsingin yliopisto, Matemaattis-luonnontieteellinen tiedekunta, Matematiikan ja tilastotieteen laitos
Thesis level:
Abstract: Coronary heart disease (CHD) is one of the leading causes of death worldwide. Linear mixed models (LMMs) are presented in this thesis and they are applied to family data from the European Multicenter Study on Familial Dyslipidemias in Patients with Premature Coronary Heart Disease (EUFAM) -project. The data contain 23 quantitative traits relating to risk of CHD and roughly 28 million genetic variants. The data consist of nearly 1600 individuals from around 150 families. Linear mixed models are used when the data contain clustering or repeated measurements. In other words, when the observations are dependent. In the EUFAM data the observations come from families. In this case, the linear mixed models take the relatedness of the individuals into account. Linear mixed models are applied for both heritability estimation and genome-wide association testing in this thesis. Both in simulations and in the analyses with the EUFAM-data the need for LMMs can be seen. The LMM has more statistical power than the standard linear model when heritability exists in the data. The standard linear model also has inflated type I error rate. Both of these occur because the standard linear model does not take the relatedness of the individuals into account. For example, in the genome-wide analysis done for the EUFAM-data the standard linear model gives a massive amount of false positives when compared to the linear mixed model. The thesis proves the usefulness of and need for linear mixed models when analyzing family data.Sydän- ja verisuonitaudit ovat maailmanlaajuisesti yksi yleisimpiä kuolinsyitä. Tutkielmassa esitellään lineaarinen sekamalli ja sitä sovelletaan European Multicenter Study on Familial Dyslipidemias in Patients with Premature Coronary Heart Disease (EUFAM) -projektin perheainestoon. Aineisto sisältää 23 jatkuvaa sydän- ja verisuonitauteihin liittyvää riskitekijää ja noin 28 miljoonaa geneettisiä varianttia. Aineisto koostuu lähes 1600 yksilöstä, jotka ovat peräisin noin 150 perheestä. Lineaarisia sekamalleja käytetään, kun aineisto sisältää ryhmittäytymistä tai toistuvia mittauksia. Toisin sanoen, kun havainnot ovat riippuvia toisistaan. EUFAM-aineistossa havainnot ovat peräisin perheistä, jolloin lineaarisella sekamallilla voidaan ottaa huomioon yksilöiden välinen sukulaisuus. Tutkielmassa sovelletaan lineaarisia sekamalleja periytyvyyden estimointiin ja genominlaajuiseen assosiaatiotutkimukseen. Sekä simulaatioissa että EUFAM-aineiston analyyseissä havaitsemme lineaarisen sekamallin tarpeellisuuden. Sekamallilla on enemmän tilastollista voimaa kuin tavallisella lineaarimallilla, kun selitettävään muuttujaan vaikuttaa periytyvyys. Tavallinen lineaarimalli myös aliarvioi tyypin I virheet. Nämä ovat seurausta siitä, ettei tavallinen lineaarimalli ota huomioon yksilöiden välisiä sukulaisuuksia. Esimerkiksi EUFAM-aineistolle tehdyssä genominlaajuisessa assosiaatiotutkimuksessa tavallinen lineaarimalli antaa huomattavan määrään vääriä assosiaatioita verrattaessa lineaariseen sekamalliin. Tutkielma osoittaa lineaarisen sekamallin hyödyllisyyden ja tarpeellisuuden analysoitaessa perheaineistoja.
URI: http://hdl.handle.net/10138/157774
Date: 2015-11-03
Discipline: Tilastotiede


Files in this item

Total number of downloads: Loading...

Files Size Format View
mastersThesis.pdf 2.149Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record