Title: | Model Selection Methods for Linear Regression and Phylogenetic Reconstruction |
Author: | Määttä, Jussi |
Contributor organization: | University of Helsinki, Faculty of Science, Department of Computer Science Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, tietojenkäsittelytieteen laitos Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för datavetenskap |
Publisher: | Helsingin yliopisto |
Date: | 2016-05-27 |
Language: | eng |
URI: |
http://urn.fi/URN:ISBN:978-951-51-2150-9
http://hdl.handle.net/10138/161437 |
Thesis level: | Doctoral dissertation (article-based) |
Abstract: | Model selection is the task of selecting from a collection of alternative explanations (often probabilistic models) the one that is best suited for a given data set. This thesis studies model selection methods for two domains, linear regression and phylogenetic reconstruction, focusing particularly on situations where the amount of data available is either small or very large.
In linear regression, the thesis concentrates on sequential methods for selecting a subset of the variables present in the data. A major result presented in the thesis is a proof that the Sequentially Normalized Least Squares (SNLS) method is consistent, that is, if the correct answer (i.e., the so-called true model) exists, then the method will find it with probability that approaches one as the amount of data increases. The thesis also introduces a new sequential model selection method that is an intermediate form between SNLS and the Predictive Least Squares (PLS) method. In addition, the thesis shows how these methods may be used to enhance a novel algorithm for removing noise from images.
For phylogenetic reconstruction, that is, the task of inferring ancestral relations from genetic data, the thesis concentrates on the Maximum Parsimony (MP) approach that tries to find the phylogeny (family tree) which minimizes the number of evolutionary changes required. The thesis provides values for various numerical indicators that can be used to assess how much confidence may be put in the phylogeny reconstructed by MP in various situations where the amount of data is small. These values were obtained by large-scale simulations and they highlight the fact that the vast number of possible phylogenies necessitates a sufficiently large data set. The thesis also extends the so-called skewness test, which is closely related to MP and can be used to reject the hypothesis that a data set is random, possibly indicating the presence of phylogenetic structure. Tietoa analysoitaessa voidaan usein vertailla monia vaihtoehtoisia malleja havaintojen selittämiseen. Väitöskirjassa käsitellään menetelmiä soveliaan mallin valintaan lineaaristen ja fylogeneettisten mallien tapauksissa. Erityistä huomiota kiinnitetään tilanteisiin, joissa käytettävissä olevan tiedon määrä on joko hyvin pieni tai lähes rajaton. Lineaaristen mallien osalta väitöskirja keskittyy menetelmiin, joiden avulla voidaan valita sovelias joukko selittäviä muuttujia. Tällaisessa tilanteessa on toivottavaa, että valittu malli eli osajoukko huomioi vain ja ainoastaan ne selittävät muuttujat, joilla on todellista vaikutusta kiinnostuksen kohteena olevaan suureeseen. Väitöskirjassa esitetään teoreettisia tuloksia, jotka puoltavat sekä aiemmin tunnetun SNLS-menetelmän että väitöskirjassa esitellyn uuden menetelmän käyttöä sellaisissa tilanteissa, joihin lineaariset mallit ylipäätään soveltuvat. Lisäksi eri menetelmien toimivuutta tarkastellaan kokeellisesti tilanteissa, joissa datapisteitä on käytettävissä vain vähän. Väitöskirjassa myös sovelletaan lineaaristen mallien mallinvalintamenetelmiä harmaasävykuvien laadunparannukseen. Väitöskirjan toinen keskeinen teema on mallinvalinta fylogeneettisessä rekonstruktiossa eli lajien sukupuiden päättelyssä niiden genomien perusteella. Erityisesti tarkastellaan niin kutsuttua parsimoniamenetelmää, joka tuottaa evolutionaaristen muutosten määrän minimoivan sukupuun. Väitöskirjassa havainnollistetaan kombinatorisesti, kuinka mahdollisten sukupuiden valtava määrä väistämättä rajoittaa parsimoniamenetelmän tarkkuutta. Tärkeän osan väitöskirjatutkimusta muodostavat laajamittaiset simulaatiokokeet, joilla kartoitetaan, kuinka paljon aineistoa parsimoniamenetelmä vähintään tarvitsee tuottaakseen uskottavia tuloksia. |
Subject: | tietojenkäsittelytiede |
Rights: | Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty. |
Total number of downloads: Loading...
Files | Size | Format | View |
---|---|---|---|
modelsel.pdf | 1.438Mb |
View/ |