Geeniennusteiden laatumittareista ja niiden soveltamisesta mansikan genomiin

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-202012104912
Title: Geeniennusteiden laatumittareista ja niiden soveltamisesta mansikan genomiin
Author: Tuominiemi, Antti
Contributor: University of Helsinki, Faculty of Agriculture and Forestry, Department of Agricultural Sciences
Publisher: Helsingin yliopisto
Date: 2020
Language: fin
URI: http://urn.fi/URN:NBN:fi:hulib-202012104912
http://hdl.handle.net/10138/322771
Thesis level: master's thesis
Discipline: Biotekniikka (MAAT)
Biotechnology (MAAT)
Bioteknik (MAAT)
Abstract: Eliöiden perimän tutkimuksessa käytettävät sekvensointimenetelmät ovat halventuneet aikaisemmasta, jonka takia käytettävissä olevan genomidatan määrä on kasvanut merkittävästi. DNA:n emäsjärjestyksen tietäminen ei auta eliön toiminnan tutkimisessa ennen kuin se annotoidaan, joka tarkoittaa geenien sijaintien etsimistä ja niiden tuotteiden määrittelyä. Annotointiin käytettävät ohjelmat tekevät virheitä ja niiden tuloksia täytyy arvioida erinäisin keinoin. Käytössä olevan datan määrä osaltaan kannustaa tuottamaan uusia annotaatioita nopeammin ja tämä voi lisätä ihmisperäisten virheiden määrää. Osa ohjelmista käyttää geenitietokantoja, joten niiden sisältämien virheellisten geenien määrä voi kasvaa tulevaisuudessa, jos annotaatioiden laadunarviointi keinoja ei kehitetä paremmiksi. Tässä tutkimuksessa tarkastellaan korrelaatiota valittujen laatumittarien ja annotaatioiden laadun välillä. Käytettävät laatumittarit voidaan jakaa kahden tyyppisiin, toiset perustuvat geenien perusrakenteisiin ja toiset geenin tuottaman proteiinin vertaamiseen proteiinitietokantaa vastaan. Tutkimuksessa oletetaan, että vertaus referenssiin on luotettava keino arvioida annotaatioiden laatua. Vertailu tehdään genomi-, eksoni- ja nukleotiditasolla. Jokaisella tasolla lasketaan vertausta kuvaava arvo, esimerkiksi nukleotiditasolla jokaiselle referenssin kanssa linjattavalle geenille lasketaan herkkyys (sensitivity) ja tarkkuus (specificity) ja niiden arvoilla lasketaan f-score. Aineistona käytettiin neljää metsämansikan (Fragaria vesca) genomin eri versiota ja niiden kuutta annotaatiota. Ne ladattiin Genome Database for Rosaceae tietokannasta, joka on ruusukasveihin erikoistunut genomitietokanta. Annotaatioista laskettujen laatuarvojen ja referenssiin vertausta kuvaavan arvon korrelaatiokerroin oli useassa tapauksessa pieni, mutta luotettava, koska kaksisuuntainen p-arvo oli minimaalinen. Korrelaatiokertoimet olivat suurempia, kun tutkittiin proteiinien homologiaan perustuvia laatumittareita. Rakenteisiin perustuvien laatumittarien keskiarvon ja f-scoren välinen korrelaatiokerroin sai pienempiä arvoja, jos tutkittava annotaatio sai hyvän f-scoren arvon. Tulokset tukevat näkemystä, että valitut rakenteisiin perustuvat laatumittarit eivät sovellu korkealaatuisten annotaatioiden laadunarviointiin. Niiden mahdollinen käyttötarkoitus voisi olla huonolaatuisten annotaatioiden automaattinen löytäminen. Laatumittarit, jotka perustuivat geenin proteiinituotteen ja proteiinitietokannan vertailuun, vaikuttivat lupaavilta jatkotutkimuksen kohteilta.The sequencing methods used to study the genome of organisms have become cheaper, resulting in a significant increase in the amount of genomic data available. Knowing the nucleic acid sequence of the DNA does not tell much about an organism. Not without first annotating the genome, which means searching for the locations of genes and defining their products. The programs used for annotation make mistakes and their results must be evaluated in various ways. The vast amount of genomic data encourages fast production of new annotations and this can increase human made errors. Some annotation programs use gene databases, so the number of wrongly annotated genes they contain may increase in the future if the quality control of annotations is not improved. This study examines correlation between selected quality measures and the quality of annotations. The quality metrics used can be divided into two basic types, the first one is based on the basic structures of genes and the second one on comparing the protein product of a gene against a protein database. The study assumes that comparison to a reference is a reliable way to assess the quality of annotations. The comparison is made at genome, exon and nucleotide levels. A single value describing the comparison is calculated at each level. For each gene aligned with a reference gene, sensitivity and specificity are calculated and used to make f-score at the nucleotide level. Four different versions of the wild strawberry (Fragaria vesca) genome and their six annotations were used as data. They were downloaded from the Genome Database for Rosacaea, which is a genome database specializing in rose plants. The correlation coefficients calculated from quality metrics and f-scores were in several cases small but reliable because the p-value was minimal. Correlation coefficients were higher when quality metrics based on protein homology were examined. The correlation coefficient calculated from the mean of the structure-based quality metrics and the f-score received lower values if the studied annotation had a high f-score value. These results detailed in this paper support the view that the selected structure-based quality metrics are not suitable for evaluation of high-grade annotations. They might possibly be used in automated detection of poor-quality annotations. Quality metrics based on protein homology appeared to be promising subjects for further research.
Subject: bioinformatiikka
geeninennustus
evaluointi
genomi


Files in this item

Total number of downloads: Loading...

Files Size Format View
Tuominiemi_Antti_Maisterintutkielma_2020.pdf 504.8Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record