Imputointimenetelmien vertailu sikapopulaatiossa

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-201506091346
Title: Imputointimenetelmien vertailu sikapopulaatiossa
Author: Martikainen, Katja
Other contributor: Helsingin yliopisto, Maatalous-metsätieteellinen tiedekunta, Maataloustieteiden laitos
University of Helsinki, Faculty of Agriculture and Forestry, Department of Agricultural Sciences
Helsingfors universitet, Agrikultur- och forstvetenskapliga fakulteten, Institutionen för lantsbruksvetenskaper
Publisher: Helsingin yliopisto
Date: 2015
Language: fin
URI: http://urn.fi/URN:NBN:fi:hulib-201506091346
http://hdl.handle.net/10138/155829
Thesis level: Master's thesis
Discipline: Husdjursvetenskap
Animal Science
Kotieläintiede
Abstract: Monien sikojen jalostustavoitteeseen kuuluvan ominaisuuden mittaaminen on haastavaa. Genomivalinnan avulla jalostusarvot voidaan ennustaa kohtuullisen luotettavasti SNP-geenimerkkien avulla. Genotyypitys yleisesti käytetyllä noin 60 000 SNP-merkkiä sisältävällä sirulla on kuitenkin kallista. Kustannustehokkuutta voidaan parantaa genotyypittämällä osa yksilöistä edullisemmalla LD-sirulla, jossa SNP-merkkien määrä on pienempi. Genomivalinnan luotettavuuden ylläpitämiseksi LD-sirusta puuttuvat SNP-merkit voidaan täydentää imputoimalla vastaamaan tiheämmän sirun antamaa tietoa. Imputointiin käytettävä tietokoneohjelma tulee valita niin, että se sopii mahdollisimman hyvin populaatiolle, johon imputointia aiotaan käyttää. Tässä tutkimuksessa verrattiin kahden imputointiohjelman (BEAGLE ja fastPHASE) toimintaa yorkshire-populaatiossa. Aineisto koostui 809 karjusta. Imputointi suoritettiin tutkimusryhmässä 1 kaikille vuoden 2007 jälkeen syntyneille karjuille ja tutkimusryhmässä 2 kaikille vuoden 2005 jälkeen syntyneille karjuille. Vuosirajoja ennen syntyneitä karjuja käytettiin imputoinnin vertailuryhminä. Ohjelmien suoriutumista arvioitiin virheellisesti imputoitujen SNP-merkkien osuuksien sekä laskenta-aikojen perusteella. Tutkimuksessa selvitettiin myös SNP-merkkien sijainnin, niiden keskimääräisten etäisyyksien, kromosomin koon ja MAF:n vaikutusta imputointivirheeseen. BEAGLEn keskimääräinen imputointivirhe tutkimusryhmälle 1 oli 2,88 % ja laskenta-aika 8min 38s. Tutkimusryhmän 2 keskimääräinen imputointivirhe oli 2,58 % ja laskenta-aika 11min 50s. FastPHASEn keskimääräinen imputointivirhe tutkimusryhmälle 1 oli 4,02 % ja laskenta-aika kromosomille 1 oli 1d 16h 11min 4s. Tutkimusryhmän 2 keskimääräinen imputointivirhe oli 3,71 % ja laskenta-aika kromosomille 1 oli 1d 11h 2min 31s. Imputointivirheet olivat suurimmat kromosomin päissä ja pienimmät kromosomin keskiosassa. SNP-merkkien keskimääräisillä etäisyyksillä ei havaittu olevan selvää vaikutusta imputointivirheeseen. Suuremmissa kromosomeissa havaittiin pienempiä imputointivirheitä, kuin pienissä kromosomeissa. MAF:n suurentumisen havaittiin myös kasvattavan imputointivirhettä. Tämän tutkimuksen perusteella BEAGLE on suositeltava ohjelma sikojen genotyyppien imputointiin sen tarkkuuden sekä lyhyen laskenta-ajan vuoksi.In pig breeding many important traits are measurable only on females or after slaughter, which makes it difficult to observe these traits for the estimation of traditional estimated breeding values (EBVs). Genomic selection is expected to overcome these difficulties, since it makes use of large number of genetic markers called single nucleotide polymorphisms (SNPs). Dense genotyping of SNPs is needed for sufficient accuracy, but the costs increase with the density of the panel. It is possible to reduce the costs by genotyping some animals with a low-density SNP panels. Missing genotypes can then be imputed to correspond to the information of the denser SNP panel. The choice of optimal imputation program is dependent on structure of the population. The aim of this study was to compare performance of two imputation programs (BEAGLE and fastPHASE) to impute genotypes in the Finnish Yorkshire pig population. Data consisted of 809 boars. In data set 1 imputation was performed for all boars born after 2007 and in data set 2 for all boars born after 2005. Genotypes of the remaining boars were used as a reference population. Performance of these programs was evaluated by the allele error rate and computing time. The effect of SNP location, average distance between adjacent SNPs, size of the chromosome and MAF on the allele error rate was also studied. The average allele error rate using BEAGLE for the data set 1 was 2,88 % and time required for imputation was 8min 38s. Results using BEAGLE for the data set 2 were 2,58 % and 11min 50s. The average allele error rate using fastPHASE for the data set 1 was 4,02 % and time required for imputation for chromosome 1 was 1d 16h 11min 4s. Results using fastPHASE for the data set 2 were 3,71 % and 11d 11h 2min 31s. Allele error rates were highest at the end of the chromosome and lowest at the centre of the chromosomes. The average distance between adjacent SNPs did not have a notable effect on error rates. Error rates tended to be lower in large chromosomes than in small chromosomes. Error rates increased with increasing MAF. According to this study, BEAGLE is recommendable program for genotype imputation because of its good accuracy and short computational time.
Subject: BEAGLE
fastPHASE
Imputointi
genomivalinta
sika
SNP-merkit


Files in this item

Total number of downloads: Loading...

Files Size Format View
Maisterintutkie ... ossa_Katja Martikainen.pdf 1.655Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record