Functional Sequence Annotation in an Error-prone Environment

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-951-51-0009-2
Title: Functional Sequence Annotation in an Error-prone Environment
Author: Koskinen, Patrik
Contributor: University of Helsinki, Faculty of Biological and Environmental Sciences, Department of Biosciences
Publisher: Helsingin yliopisto
Date: 2014-08-22
URI: http://urn.fi/URN:ISBN:978-951-51-0009-2
http://hdl.handle.net/10138/135526
Thesis level: Doctoral dissertation (article-based)
Abstract: As more and more sequences are submitted to public databases, so will grow more computationally challenging sequence retrieval systems. When for example the UniProtKB/TrEMBL doubles in size annually, the tools used today might not be sufficient tomorrow. Faster and computationally lighter methods are needed for sequence retrieval. This study presents a computationally more efficient tool. The Suffix Array Neighbourhood Search (SANS) tool is a hundred fold faster than the most commonly used tool BLAST. The sequence databases do not only grow in size but also in the number of different functional annotations they contain. Recent studies have shown that a large number of these annotations are assigned incorrectly. When the error level of functional annotations in the databases grows to a statistically significant figure, better methods and the use of error detection statistics are highly recommended. In the present study we introduce novel methods for weighted statistical testing of functional annotations. Also novel methods for the calculation of information content value are presented. The information content value enables the discrimination of informative from uninformative annotations. A growing number of functional annotation tools are introduced annually. Since no gold standard evaluation sets exist, it is impossible to determine the reliability of the different methods. The Critical Assessment of Functional Annotations (CAFA) challenge is the first attempt to evaluate functional annotation tools by using blind testing on a large scale. The first CAFA challenge included the evaluation of 54 state-of-the-art methods in two different Gene Ontology categories. The results show that there is a plenty of room for improvement in the prediction accuracy of the existing tools.Samaan aikaan, kun uusia sekvenssejä lisätään kiihtyvällä vauhdilla julkisiin biologisiin sekvenssitietopankkeihin, tietopankkien käyttäjät kohtaavat haasteita massivisten tietomäärien käsittelyssä. Esimerkiksi UniProtKB sekvenssitietokannan koko kaksinkertaistuu vuosittain, mikä johtaa väistämättä siihen tilanteeseen, että nykyisin käytössä olevat algoritmit tiedon etsimiseen vanhentuvat, koska eivät vastaa tehokkuudeltaan tulevaisuuden haasteita. Uusia, laskennallisesti tehokkaampia menetelmiä tarvitaan jatkuvasti. Tässä väitöskirjassa esitellään menetelmä joka on laskennallisesti tehokkaampi kuin nykyisin käytössä olevat menetelmät. Väitöskirjassa esitellyllä SANS algoritmilla päästään satakertaisiin parannuksiin suoritusajoissa verrattuna yleisimpään käytössä olevaan ohjelmaan BLAST. Biologiset sekvenssitietokannat eivät kasva ainoastaan niiden sekvenssimäärissä. Samalla kasvaa sekvensseihin liittyvä tiedon määrä. Viime aikoina kuitenkin on herännyt huolen aiheita tiedon oikeellisuuden puolesta. On arvioitu, että miltei puolet sekvenssitietokantojen tiedosta on virheellistä. Virheellisen tiedon käyttäminen esimerkiksi tutkimuksessa johtaa helposti vääriin johtopäätöksiin ja vääriin tuloksiin. Tässä väitöskirjassa esitellään menetelmä PANNZER, joka laskee tilastollisesti haetun tiedon luotettavuutta ja näin maksimoi tiedon oikeellisuuden. Oikeellisen tiedon saaminen julkisista biologisista sekvenssitietokannoista on kasvavissa määrin haasteellisempaa. Tähän ollaan herätty myös kansainvälisissä tutkijaryhmissä. Yksi tapa mitata olemassa olevien menetelmien suorituskykyä oikeellisen tiedon etsimisessä on järjestää kansainvälinen kilpailu tiedonhakumenetelmille. Ensimmäiseen kilpailuun nimeltä Critical Assessment of Functional Annotations (CAFA) osallistui 54 kilpailevaa menetelmää ympäri maailman. Tässä väitöskirjassa käsitellään myös kyseistä kilpailua sekä sen tuloksia.
Subject: perinnöllisyystiede
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
function.pdf 1.841Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record