Comparative Evaluation of Methods for Sequence Alignment and Annotation

Show simple item record

dc.contributor Helsingin yliopisto, bio- ja ympäristötieteellinen tiedekunta fi
dc.contributor Helsingfors universitet, bio- och miljövetenskapliga fakulteten sv
dc.contributor University of Helsinki, Faculty of Biological and Environmental Sciences en
dc.contributor Integroivien biotieteiden tohtoriohjelma fi
dc.contributor Doktorandprogrammet i integrerande biovetenskap sv
dc.contributor Doctoral Programme in Integrative Life Science en
dc.contributor.author Pljusnin, Ilja
dc.date.accessioned 2020-08-31T04:44:25Z
dc.date.available 2020-09-29
dc.date.available 2020-08-31T04:44:25Z
dc.date.issued 2020-10-09
dc.identifier.uri URN:ISBN:978-951-51-6214-4
dc.identifier.uri http://hdl.handle.net/10138/318829
dc.description.abstract The speed of DNA and RNA sequencing has long ago surpassed the capacity of laboratories to assign function to these sequences by direct experiment. Fortunately, function and other information can be effectively transferred to novel data from previously accumulated knowledge by sequence homology. This has resulted in the development of hundreds of novel homology-based methods. However, the tendency of method developers to be overoptimistic about their own results, biases in the evaluation metrics used to rank methods, inconsistency between different rankings and evaluation metrics, misplaced popularity of methods relative to their performance all indicate that, in many cases, clear knowledge of the comparative performance of different methods is lacking. This has two main consequences. First, researchers use suboptimal tools. Second, method development may go astray because the merits used for guiding method optimization are biased or unclear. To avoid these difficulties, further research is needed into methodology of evaluation and comparative studies. One core approach for transferring function by sequence homology is to create a multiple sequence alignment (MSA) that represents a given group of similar sequences. The resulting alignment can be applied to annotate novel sequences using profile hidden Markov models (HMMs), to create phylogenetic trees or to compare structural features. The application of MSAs and profile HMMs for genome annotation was explored in publication (I). Creating MSA has been addressed by a vast field of research, however there is a lack of independent comparative studies and no comparative studies for alignment strategies. In publication (II) a novel modular MSA aligner was implemented to aid in comparative evaluation of different MSA strategies. Different MSA strategies were then compared to each other and to the state-of-the-art MSA software on three benchmark databases. Another core approach has been to combine homology searches with assignment of annotation terms from a controlled vocabulary such as the Gene Ontology (GO). Hundreds of methods that assign GO terms to novel sequences have been introduced. The research community has also invested into the objective evaluation of these methods via third party competitions. However, the evaluation metrics and merits used in these competitions are still under active debate and need further research and development. In publication (III) a novel framework was introduced for the development of unbiased high-quality evaluation metrics. By testing 37 variations of popular metrics, our approach revealed strong differences between metrics, a list of clearly biased metrics, and a list of high-quality metrics that are well suited for the evaluation of GO annotations. In summary, this thesis presents novel frameworks and implementation platforms for comparative evaluation of two important classes of homology-based methods: MSA aligners and GO sequence classifiers. These results will be instrumental for developing more accurate MSA aligners, for eliminating many forms of bias inherent in contemporary evaluation protocols, for producing informative method rankings for non-specialist users and for guiding method development towards merits that truly reflect the utility of the designed tools. en
dc.description.abstract Johtuen DNA ja RNA sekvensointiteknologian nopeasta kehityksestä suurin osa sekvenssien biologisista kuvauksista tuotetaan sekvenssihomologiaan perustuvilla automaattisilla menetelmillä. Homologiaan perustuvia menetelmiä on kehitetty satoja, mikä korostaa objektiivisen ja riippumattoman menetelmävertailun merkitystä. On monia virhelähteitä, jotka vääristävät ja hankaloittavat menetelmävertailua: oman menetelmän yliarviointi, ylisovittaminen, valikoitu raportointi, sekä harhaiset ja keskenään ristiriitaiset arviointimetriikat. Harhaisella menetelmävertailulla on kaksi merkittävää seurausta: (1) epäoptimaaliset menetelmät päätyvät tutkijayhteisön käyttöön, (2) menetelmäkehitys harhaantuu, koska kehitystä ohjaavat arviointikriteerit ovat harhaisia tai epäselviä. Edellä mainittuja vaikeuksia voidaan välttää kohdentamalla tutkimusta itse vertailevaan menetelmäarviointiin. Monisekvenssilinjaus (MSL) on sekvenssihomologiaan perustuva menetelmä, jolla on hyvin laaja sovelluskenttä molekyylibiologisessa tutkimustyössä. Julkaisussa (I) tutkittiin MSL-linjausten ja Markovin piilomallien soveltamista bakteerigenomien kuvaukseen. MSL-kentällä on edelleen puutetta riippumattomasta menetelmäarvioinnista, ja erityisesti eri MSL-algoritmiratkaisuja vertailevista tutkimuksista. Julkaisussa (II) esitettiin uusi modulaarinen MSL-ohjelma, jonka avulla useita MSL-algoritmiratkaisuja vertailtiin toisiinsa ja MSL-alan huippusovelluksiin kolmella vertailutietokannalla. Vertailun perusteella annettiin selkeitä suosituksia optimaalisista MSL-algoritmiratkaisuista ja parhaista MSL-ohjelmista. Sekvenssikuvauksia tuottavat automaattiset menetelmät useimmiten käyttävät geeniontologian (GO) termistöä. Koska vuosittain julkaistaan satoja GO-menetelmiä, tutkimusyhteisö on panostanut kyseisten menetelmien vertailevaan arviointiin. Kuitenkin GO-menetelmävertailun kentällä arviointikriteerit ovat vakiintumattomia ja monet käytössä olevat arviointimetriikat ovat joko harhaisia tai keskenään ristiriitaisia. Julkaisussa (III) ehdotetaan ratkaisuksi uutta menetelmää, jonka avulla on mahdollista testata ja kehittää korkealaatuisia ja harhattomia arviointimetriikoita. Julkaisussa (III) testattiin useita arviointimetriikoita ja osoitettiin, että monet tällä hetkellä käytössä olevat GO-arviointimetriikat ovat voimakkaasti harhaisia. Testauksen perusteella annettiin myös selkeitä suosituksia arviointimetriikoista, jotka takaavat harhattoman menetelmävertailun. fi
dc.format.mimetype application/pdf
dc.language.iso en
dc.publisher Helsingin yliopisto fi
dc.publisher Helsingfors universitet sv
dc.publisher University of Helsinki en
dc.relation.isformatof URN:ISBN:978-951-51-6213-7
dc.relation.isformatof Helsinki: UNIGRAFIA, 2020
dc.rights Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty. fi
dc.rights This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. en
dc.rights Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden. sv
dc.subject bioinformatics
dc.title Comparative Evaluation of Methods for Sequence Alignment and Annotation en
dc.type.ontasot Väitöskirja (artikkeli) fi
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Doktorsavhandling (sammanläggning) sv
dc.ths Holm, Liisa
dc.opn Dessimoz, Christophe
dc.type.dcmitype Text

Files in this item

Total number of downloads: Loading...

Files Size Format View
comparat.pdf 1.657Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record