Model Selection Methods for Linear Regression and Phylogenetic Reconstruction

Show simple item record

dc.contributor.author Määttä, Jussi
dc.date.accessioned 2016-05-06T06:04:49Z
dc.date.available 2016-05-17 fi
dc.date.available 2016-05-06T06:04:49Z
dc.date.issued 2016-05-27
dc.identifier.uri URN:ISBN:978-951-51-2150-9 fi
dc.identifier.uri http://hdl.handle.net/10138/161437
dc.description.abstract Model selection is the task of selecting from a collection of alternative explanations (often probabilistic models) the one that is best suited for a given data set. This thesis studies model selection methods for two domains, linear regression and phylogenetic reconstruction, focusing particularly on situations where the amount of data available is either small or very large. In linear regression, the thesis concentrates on sequential methods for selecting a subset of the variables present in the data. A major result presented in the thesis is a proof that the Sequentially Normalized Least Squares (SNLS) method is consistent, that is, if the correct answer (i.e., the so-called true model) exists, then the method will find it with probability that approaches one as the amount of data increases. The thesis also introduces a new sequential model selection method that is an intermediate form between SNLS and the Predictive Least Squares (PLS) method. In addition, the thesis shows how these methods may be used to enhance a novel algorithm for removing noise from images. For phylogenetic reconstruction, that is, the task of inferring ancestral relations from genetic data, the thesis concentrates on the Maximum Parsimony (MP) approach that tries to find the phylogeny (family tree) which minimizes the number of evolutionary changes required. The thesis provides values for various numerical indicators that can be used to assess how much confidence may be put in the phylogeny reconstructed by MP in various situations where the amount of data is small. These values were obtained by large-scale simulations and they highlight the fact that the vast number of possible phylogenies necessitates a sufficiently large data set. The thesis also extends the so-called skewness test, which is closely related to MP and can be used to reject the hypothesis that a data set is random, possibly indicating the presence of phylogenetic structure. en
dc.description.abstract Tietoa analysoitaessa voidaan usein vertailla monia vaihtoehtoisia malleja havaintojen selittämiseen. Väitöskirjassa käsitellään menetelmiä soveliaan mallin valintaan lineaaristen ja fylogeneettisten mallien tapauksissa. Erityistä huomiota kiinnitetään tilanteisiin, joissa käytettävissä olevan tiedon määrä on joko hyvin pieni tai lähes rajaton. Lineaaristen mallien osalta väitöskirja keskittyy menetelmiin, joiden avulla voidaan valita sovelias joukko selittäviä muuttujia. Tällaisessa tilanteessa on toivottavaa, että valittu malli eli osajoukko huomioi vain ja ainoastaan ne selittävät muuttujat, joilla on todellista vaikutusta kiinnostuksen kohteena olevaan suureeseen. Väitöskirjassa esitetään teoreettisia tuloksia, jotka puoltavat sekä aiemmin tunnetun SNLS-menetelmän että väitöskirjassa esitellyn uuden menetelmän käyttöä sellaisissa tilanteissa, joihin lineaariset mallit ylipäätään soveltuvat. Lisäksi eri menetelmien toimivuutta tarkastellaan kokeellisesti tilanteissa, joissa datapisteitä on käytettävissä vain vähän. Väitöskirjassa myös sovelletaan lineaaristen mallien mallinvalintamenetelmiä harmaasävykuvien laadunparannukseen. Väitöskirjan toinen keskeinen teema on mallinvalinta fylogeneettisessä rekonstruktiossa eli lajien sukupuiden päättelyssä niiden genomien perusteella. Erityisesti tarkastellaan niin kutsuttua parsimoniamenetelmää, joka tuottaa evolutionaaristen muutosten määrän minimoivan sukupuun. Väitöskirjassa havainnollistetaan kombinatorisesti, kuinka mahdollisten sukupuiden valtava määrä väistämättä rajoittaa parsimoniamenetelmän tarkkuutta. Tärkeän osan väitöskirjatutkimusta muodostavat laajamittaiset simulaatiokokeet, joilla kartoitetaan, kuinka paljon aineistoa parsimoniamenetelmä vähintään tarvitsee tuottaakseen uskottavia tuloksia. fi
dc.format.mimetype application/pdf fi
dc.language.iso eng
dc.publisher Helsingin yliopisto fi
dc.publisher Helsingfors universitet sv
dc.publisher University of Helsinki en
dc.relation.isformatof URN:ISBN:978-951-51-2149-3 fi
dc.relation.isformatof Unigrafia, 2016, 1238-8645 fi
dc.rights Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty. fi
dc.rights This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. en
dc.rights Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden. sv
dc.subject tietojenkäsittelytiede fi
dc.title Model Selection Methods for Linear Regression and Phylogenetic Reconstruction en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Artikkeliväitöskirja fi
dc.type.ontasot Artikelavhandling sv
dc.ths Roos, Teemu
dc.opn Grosse, Ivo
dc.type.dcmitype Text
dc.contributor.organization University of Helsinki, Faculty of Science, Department of Computer Science en
dc.contributor.organization Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos fi
dc.contributor.organization Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap sv
dc.type.publication doctoralThesis

Files in this item

Total number of downloads: Loading...

Files Size Format View
modelsel.pdf 1.438Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record