Comparative Evaluation of Methods for Sequence Alignment and Annotation

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-951-51-6214-4
Title: Comparative Evaluation of Methods for Sequence Alignment and Annotation
Author: Pljusnin, Ilja
Contributor: University of Helsinki, Faculty of Biological and Environmental Sciences
Doctoral Programme in Integrative Life Science
Publisher: Helsingin yliopisto
Date: 2020-10-09
URI: http://urn.fi/URN:ISBN:978-951-51-6214-4
http://hdl.handle.net/10138/318829
Thesis level: Doctoral dissertation (article-based)
Abstract: The speed of DNA and RNA sequencing has long ago surpassed the capacity of laboratories to assign function to these sequences by direct experiment. Fortunately, function and other information can be effectively transferred to novel data from previously accumulated knowledge by sequence homology. This has resulted in the development of hundreds of novel homology-based methods. However, the tendency of method developers to be overoptimistic about their own results, biases in the evaluation metrics used to rank methods, inconsistency between different rankings and evaluation metrics, misplaced popularity of methods relative to their performance all indicate that, in many cases, clear knowledge of the comparative performance of different methods is lacking. This has two main consequences. First, researchers use suboptimal tools. Second, method development may go astray because the merits used for guiding method optimization are biased or unclear. To avoid these difficulties, further research is needed into methodology of evaluation and comparative studies. One core approach for transferring function by sequence homology is to create a multiple sequence alignment (MSA) that represents a given group of similar sequences. The resulting alignment can be applied to annotate novel sequences using profile hidden Markov models (HMMs), to create phylogenetic trees or to compare structural features. The application of MSAs and profile HMMs for genome annotation was explored in publication (I). Creating MSA has been addressed by a vast field of research, however there is a lack of independent comparative studies and no comparative studies for alignment strategies. In publication (II) a novel modular MSA aligner was implemented to aid in comparative evaluation of different MSA strategies. Different MSA strategies were then compared to each other and to the state-of-the-art MSA software on three benchmark databases. Another core approach has been to combine homology searches with assignment of annotation terms from a controlled vocabulary such as the Gene Ontology (GO). Hundreds of methods that assign GO terms to novel sequences have been introduced. The research community has also invested into the objective evaluation of these methods via third party competitions. However, the evaluation metrics and merits used in these competitions are still under active debate and need further research and development. In publication (III) a novel framework was introduced for the development of unbiased high-quality evaluation metrics. By testing 37 variations of popular metrics, our approach revealed strong differences between metrics, a list of clearly biased metrics, and a list of high-quality metrics that are well suited for the evaluation of GO annotations. In summary, this thesis presents novel frameworks and implementation platforms for comparative evaluation of two important classes of homology-based methods: MSA aligners and GO sequence classifiers. These results will be instrumental for developing more accurate MSA aligners, for eliminating many forms of bias inherent in contemporary evaluation protocols, for producing informative method rankings for non-specialist users and for guiding method development towards merits that truly reflect the utility of the designed tools.Johtuen DNA ja RNA sekvensointiteknologian nopeasta kehityksestä suurin osa sekvenssien biologisista kuvauksista tuotetaan sekvenssihomologiaan perustuvilla automaattisilla menetelmillä. Homologiaan perustuvia menetelmiä on kehitetty satoja, mikä korostaa objektiivisen ja riippumattoman menetelmävertailun merkitystä. On monia virhelähteitä, jotka vääristävät ja hankaloittavat menetelmävertailua: oman menetelmän yliarviointi, ylisovittaminen, valikoitu raportointi, sekä harhaiset ja keskenään ristiriitaiset arviointimetriikat. Harhaisella menetelmävertailulla on kaksi merkittävää seurausta: (1) epäoptimaaliset menetelmät päätyvät tutkijayhteisön käyttöön, (2) menetelmäkehitys harhaantuu, koska kehitystä ohjaavat arviointikriteerit ovat harhaisia tai epäselviä. Edellä mainittuja vaikeuksia voidaan välttää kohdentamalla tutkimusta itse vertailevaan menetelmäarviointiin. Monisekvenssilinjaus (MSL) on sekvenssihomologiaan perustuva menetelmä, jolla on hyvin laaja sovelluskenttä molekyylibiologisessa tutkimustyössä. Julkaisussa (I) tutkittiin MSL-linjausten ja Markovin piilomallien soveltamista bakteerigenomien kuvaukseen. MSL-kentällä on edelleen puutetta riippumattomasta menetelmäarvioinnista, ja erityisesti eri MSL-algoritmiratkaisuja vertailevista tutkimuksista. Julkaisussa (II) esitettiin uusi modulaarinen MSL-ohjelma, jonka avulla useita MSL-algoritmiratkaisuja vertailtiin toisiinsa ja MSL-alan huippusovelluksiin kolmella vertailutietokannalla. Vertailun perusteella annettiin selkeitä suosituksia optimaalisista MSL-algoritmiratkaisuista ja parhaista MSL-ohjelmista. Sekvenssikuvauksia tuottavat automaattiset menetelmät useimmiten käyttävät geeniontologian (GO) termistöä. Koska vuosittain julkaistaan satoja GO-menetelmiä, tutkimusyhteisö on panostanut kyseisten menetelmien vertailevaan arviointiin. Kuitenkin GO-menetelmävertailun kentällä arviointikriteerit ovat vakiintumattomia ja monet käytössä olevat arviointimetriikat ovat joko harhaisia tai keskenään ristiriitaisia. Julkaisussa (III) ehdotetaan ratkaisuksi uutta menetelmää, jonka avulla on mahdollista testata ja kehittää korkealaatuisia ja harhattomia arviointimetriikoita. Julkaisussa (III) testattiin useita arviointimetriikoita ja osoitettiin, että monet tällä hetkellä käytössä olevat GO-arviointimetriikat ovat voimakkaasti harhaisia. Testauksen perusteella annettiin myös selkeitä suosituksia arviointimetriikoista, jotka takaavat harhattoman menetelmävertailun.
Subject: bioinformatics
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
comparat.pdf 1.657Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record