Discovering hidden structures in molecular data using a Bayesian partition model approach

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-952-10-4922-4
Title: Discovering hidden structures in molecular data using a Bayesian partition model approach
Alternative title: Molekyylitason biologisten aineistojen rakenteen selvittäminen bayesläistä ositusmallia hyödyntäen
Author: Marttinen, Pekka
Other contributor: Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, matematiikan ja tilastotieteen laitos
Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, matematiska och statistiska institutionen
University of Helsinki, Faculty of Science, Department of Mathematics and Statistics
Publisher: Helsingin yliopisto
Date: 2008-09-26
Language: en
URI: http://urn.fi/URN:ISBN:978-952-10-4922-4
http://hdl.handle.net/10138/21243
Thesis level: Doctoral dissertation (article-based)
Abstract: Advancements in the analysis techniques have led to a rapid accumulation of biological data in databases. Such data often are in the form of sequences of observations, examples including DNA sequences and amino acid sequences of proteins. The scale and quality of the data give promises of answering various biologically relevant questions in more detail than what has been possible before. For example, one may wish to identify areas in an amino acid sequence, which are important for the function of the corresponding protein, or investigate how characteristics on the level of DNA sequence affect the adaptation of a bacterial species to its environment. Many of the interesting questions are intimately associated with the understanding of the evolutionary relationships among the items under consideration. The aim of this work is to develop novel statistical models and computational techniques to meet with the challenge of deriving meaning from the increasing amounts of data. Our main concern is on modeling the evolutionary relationships based on the observed molecular data. We operate within a Bayesian statistical framework, which allows a probabilistic quantification of the uncertainties related to a particular solution. As the basis of our modeling approach we utilize a partition model, which is used to describe the structure of data by appropriately dividing the data items into clusters of related items. Generalizations and modifications of the partition model are developed and applied to various problems. Large-scale data sets provide also a computational challenge. The models used to describe the data must be realistic enough to capture the essential features of the current modeling task but, at the same time, simple enough to make it possible to carry out the inference in practice. The partition model fulfills these two requirements. The problem-specific features can be taken into account by modifying the prior probability distributions of the model parameters. The computational efficiency stems from the ability to integrate out the parameters of the partition model analytically, which enables the use of efficient stochastic search algorithms.Jatkuvasti kehittyvien laboratoriomenetelmien ansiosta molekyylitason biologista aineistoa on tarjolla tutkijoille enemmän kuin koskaan aiemmin. Ihmisen koko genomi on onnistuttu selvittämään ja useiden eri lajien DNA:sta on tarjolla yhä tarkempia tietoja. Geneettinen aineisto on yksi esimerkki sekvenssimuotoisesta aineistosta, jossa kutakin havaittua yksilöä kohden on tarjolla jono peräkkäisiä havaintoja, tässä tapauksessa esimerkiksi DNA:n muodostavia peräkkäisiä emäspareja. Toisenlaisen esimerkin sekvenssimuotoisesta aineistosta tarjoavat proteiinit, joiden rakenteen määrää peräkkäisten aminohappojen muodostama ketju. Koska aminohappojen järjestys proteiinissa on geenien määräämä, on myös tämäntyyppistä aineistoa käyttämällä mahdollista saada epäsuorasti tietoa tutkittavan yksilön genomista. Geeni- tai proteiinisekvensseihin perustuva aineisto tarjoaa oivan lähtökohdan yksilöiden evolutiivisten suhteiden arvioimiseen. Näiden evolutiivisten suhteiden selvittäminen tarjoaa mielenkiintoista tietoa evoluutiosta itsestään sekä sen mekanismeista ja vaikutuksesta esimerkiksi uusien lajien syntyyn. Käytännön sovellutusten kannalta on kiinnostavaa tutkia esimerkiksi kuinka bakteerit kehittävät lääkkeille vastustuskykyisiä kantoja, tai pyrkiä tunnistamaan automaattisesti aminohapposekvenssien pohjalta niitä kohtia sekvenssissä, jotka ovat proteiinin toiminnan kannalta keskeisiä. Vastausten ymmärtäminen näihin kysymyksiin antaa perustaa muunmuassa tulevaa lääkkeiden kehitystyötä varten. Tässä työssä kehitämme sekvenssimuotoiselle aineistolle soveltuvia malllinnustyökaluja, joita käyttämällä tutkijoilla on mahdollisuus ymmärtää havaittujen yksilöiden evolutiivisia suhteita, sekä mallintaa evoluutioon vaikuttavia mekanismeja. Lähtökohtana on todennäköisyyksiin perustuva ositusmalli, jolla kuvataan aineistoon kuuluvien yksilöiden muodostamia eriytyneitä ryhmiä. Osatöissä kehitetään mallista eri tilanteisiin soveltuvia muotoiluja ja yleistyksiä. Aineistojen iso koko aiheuttaa käytännössä lisähaasteen laskennan toteuttamiselle. Tähän haasteeseen on työssä vastattu kehittämällä uudenlaisia laskennallisia lähestymistapoja, jotka mahdollistavat isojenkin aineistojen analysoinnin kohtuullisessa ajassa.
Subject: tilastotiede
Rights: Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.


Files in this item

Total number of downloads: Loading...

Files Size Format View
discover.pdf 218.5Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record