Imputointimenetelmien vertailu sikapopulaatiossa

Näytä kaikki kuvailutiedot



Pysyväisosoite

http://urn.fi/URN:NBN:fi:hulib-201506091346
Julkaisun nimi: Imputointimenetelmien vertailu sikapopulaatiossa
Tekijä: Martikainen, Katja
Muu tekijä: Helsingin yliopisto, Maatalous-metsätieteellinen tiedekunta, Maataloustieteiden laitos
Julkaisija: Helsingin yliopisto
Päiväys: 2015
Kieli: fin
URI: http://urn.fi/URN:NBN:fi:hulib-201506091346
http://hdl.handle.net/10138/155829
Opinnäytteen taso: pro gradu -tutkielmat
Oppiaine: Husdjursvetenskap
Animal Science
Kotieläintiede
Tiivistelmä: Monien sikojen jalostustavoitteeseen kuuluvan ominaisuuden mittaaminen on haastavaa. Genomivalinnan avulla jalostusarvot voidaan ennustaa kohtuullisen luotettavasti SNP-geenimerkkien avulla. Genotyypitys yleisesti käytetyllä noin 60 000 SNP-merkkiä sisältävällä sirulla on kuitenkin kallista. Kustannustehokkuutta voidaan parantaa genotyypittämällä osa yksilöistä edullisemmalla LD-sirulla, jossa SNP-merkkien määrä on pienempi. Genomivalinnan luotettavuuden ylläpitämiseksi LD-sirusta puuttuvat SNP-merkit voidaan täydentää imputoimalla vastaamaan tiheämmän sirun antamaa tietoa. Imputointiin käytettävä tietokoneohjelma tulee valita niin, että se sopii mahdollisimman hyvin populaatiolle, johon imputointia aiotaan käyttää. Tässä tutkimuksessa verrattiin kahden imputointiohjelman (BEAGLE ja fastPHASE) toimintaa yorkshire-populaatiossa. Aineisto koostui 809 karjusta. Imputointi suoritettiin tutkimusryhmässä 1 kaikille vuoden 2007 jälkeen syntyneille karjuille ja tutkimusryhmässä 2 kaikille vuoden 2005 jälkeen syntyneille karjuille. Vuosirajoja ennen syntyneitä karjuja käytettiin imputoinnin vertailuryhminä. Ohjelmien suoriutumista arvioitiin virheellisesti imputoitujen SNP-merkkien osuuksien sekä laskenta-aikojen perusteella. Tutkimuksessa selvitettiin myös SNP-merkkien sijainnin, niiden keskimääräisten etäisyyksien, kromosomin koon ja MAF:n vaikutusta imputointivirheeseen. BEAGLEn keskimääräinen imputointivirhe tutkimusryhmälle 1 oli 2,88 % ja laskenta-aika 8min 38s. Tutkimusryhmän 2 keskimääräinen imputointivirhe oli 2,58 % ja laskenta-aika 11min 50s. FastPHASEn keskimääräinen imputointivirhe tutkimusryhmälle 1 oli 4,02 % ja laskenta-aika kromosomille 1 oli 1d 16h 11min 4s. Tutkimusryhmän 2 keskimääräinen imputointivirhe oli 3,71 % ja laskenta-aika kromosomille 1 oli 1d 11h 2min 31s. Imputointivirheet olivat suurimmat kromosomin päissä ja pienimmät kromosomin keskiosassa. SNP-merkkien keskimääräisillä etäisyyksillä ei havaittu olevan selvää vaikutusta imputointivirheeseen. Suuremmissa kromosomeissa havaittiin pienempiä imputointivirheitä, kuin pienissä kromosomeissa. MAF:n suurentumisen havaittiin myös kasvattavan imputointivirhettä. Tämän tutkimuksen perusteella BEAGLE on suositeltava ohjelma sikojen genotyyppien imputointiin sen tarkkuuden sekä lyhyen laskenta-ajan vuoksi.In pig breeding many important traits are measurable only on females or after slaughter, which makes it difficult to observe these traits for the estimation of traditional estimated breeding values (EBVs). Genomic selection is expected to overcome these difficulties, since it makes use of large number of genetic markers called single nucleotide polymorphisms (SNPs). Dense genotyping of SNPs is needed for sufficient accuracy, but the costs increase with the density of the panel. It is possible to reduce the costs by genotyping some animals with a low-density SNP panels. Missing genotypes can then be imputed to correspond to the information of the denser SNP panel. The choice of optimal imputation program is dependent on structure of the population. The aim of this study was to compare performance of two imputation programs (BEAGLE and fastPHASE) to impute genotypes in the Finnish Yorkshire pig population. Data consisted of 809 boars. In data set 1 imputation was performed for all boars born after 2007 and in data set 2 for all boars born after 2005. Genotypes of the remaining boars were used as a reference population. Performance of these programs was evaluated by the allele error rate and computing time. The effect of SNP location, average distance between adjacent SNPs, size of the chromosome and MAF on the allele error rate was also studied. The average allele error rate using BEAGLE for the data set 1 was 2,88 % and time required for imputation was 8min 38s. Results using BEAGLE for the data set 2 were 2,58 % and 11min 50s. The average allele error rate using fastPHASE for the data set 1 was 4,02 % and time required for imputation for chromosome 1 was 1d 16h 11min 4s. Results using fastPHASE for the data set 2 were 3,71 % and 11d 11h 2min 31s. Allele error rates were highest at the end of the chromosome and lowest at the centre of the chromosomes. The average distance between adjacent SNPs did not have a notable effect on error rates. Error rates tended to be lower in large chromosomes than in small chromosomes. Error rates increased with increasing MAF. According to this study, BEAGLE is recommendable program for genotype imputation because of its good accuracy and short computational time.
Avainsanat: BEAGLE
fastPHASE
Imputointi
genomivalinta
sika
SNP-merkit


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
Maisterintutkie ... ossa_Katja Martikainen.pdf 1.655MB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot