Bayesian Stochastic Partition Models For Markovian Dependence Structures

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-951-51-0487-8
Title: Bayesian Stochastic Partition Models For Markovian Dependence Structures
Author: Jääskinen, Väinö
Other contributor: Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta, matematiikan ja tilastotieteen laitos
Helsingfors universitet, matematisk-naturvetenskapliga fakulteten, institutionen för matematik och statistik
University of Helsinki, Faculty of Science, Department of Mathematics and Statistics
Publisher: Helsingin yliopisto
Date: 2015-02-06
Language: en
URI: http://urn.fi/URN:ISBN:978-951-51-0487-8
http://hdl.handle.net/10138/152780
Thesis level: Doctoral dissertation (article-based)
Abstract: In various fields of knowledge we can observe that the availability of potentially useful data is increasing fast. A prime example is the DNA sequence data. This increase is both an opportunity and a challenge as new methods are needed to benefit from the big data sets. This has sparked a fruitful line of research in statistics and computer science that can be called machine learning. In this thesis, we develop machine learning methods based on the Bayesian approach to statistics. We address a fairly general problem called clustering, i.e. dividing a set of objects to non-overlapping group based on their similarity, and apply it to models with Markovian dependence structures. We consider sequence data in a finite alphabet and present a model class called the Sparse Markov chain (SMC). It is a special case of a Markov chain (MC) model and offers a parsimonious description of the data generating mechanism. A Variable length Markov chain (VLMC) is a popular sparse model presented earlier in the literature and it has a representation as an SMC model. We develop Bayesian clustering methodology for learning the SMC and other Markovian models. Another problem that we study in this thesis is causal inference. We present a model and an algorithm for learning causal mechanisms from data. The model can be considered as a stochastic extension of the sufficient-component cause model that is popular in epidemiology. In our model there are several causal mechanisms each with its own parameters. A mixture distribution gives a probability that an outcome variable is associated with a mechanism. Applications that are considered in this thesis come mainly from computational biology. We cluster states of Markovian models estimated from DNA sequences. This gives an efficient description of the sequence data when comparing to methods reported in the literature. We also cluster DNA sequences with Markov chains, which results in a method that can be used for example in the estimation of bacterial community composition in a sample from which DNA is extracted. The causal model and the related learning algorithm are able to estimate mechanisms from fairly challenging data. We have developed the learning algorithms with big data sets in mind. Still, there is a need to develop them further to handle ever larger data sets.Tieteeseen ja teknologiaan liittyen voidaan huomata, että potentiaalisesti hyödyllisen datan määrä on vuosi vuodelta suurempi. Hyvä esimerkki on DNA-sekvenssidata, jonka määrä kasvaa varsinkin mittalaitteiden kehityksen myötä. Tämä kasvu on sekä mahdollisuus että haaste, sillä entistä suurempien aineistojen hyödyntämiseen tarvitaan uusia menetelmiä. On syntynyt uusi koneoppimisen tieteenala, joka yhdistää menetelmiä sekä teoriaa tilastotieteestä ja tietojenkäsittelytieteestä. Tässä tilastotieteen alaan kuuluvassa väitöskirjatyössä on kehitetty koneoppimisen menetelmiä lähtien tilastotieteen Bayes-paradigmasta, joka perustuu epävarmuuden mallintamiseen todennäköisyyksien avulla. Keskeinen ongelma on klusterointi: miten jakaa joukko objekteja ryhmiin samankaltaisuuden perusteella siten, että samanlaiset objektit kuuluvat samaan ryhmään korkealla todennäköisyydellä. Klusterointia sovelletaan tilastollisiin malleihin, jotka toteuttavat Markov-ominaisuuden jossain muodossa. Heuristisesti ja kuvainnollisesti Markov-ominaisuuden voidaan ajatella tarkoittavan sitä, että se mikä on lähellä vaikuttaa enemmän kuin se mikä on kaukana. Työssä käsitelty sekvenssidata koostuu merkkijonoista, joilla on äärellinen aakkosto. DNA-sekvenssidatan kohdalla aakkosto koostuu neljästä typpiemäksestä: A, G, C ja T. Sekvenssidatan lisäksi väitöskirjassa tutkitaan kausaalipäättelyä ja esitetään malli kausaalisten mekanismien oppimiseen datasta. Lähtökohtana on epidemiologissa suosittu riittävien osasyiden malli, jota voidaan havainnollistaa piirakkadiagrammilla. Siinä sairaudella on joukko osasyitä, joiden erilaiset yhdistelmät aiheuttavat sairauden. Väitöskirjan sovellukset liittyvät pääasiassa laskennalliseen biologiaan. Keskeisellä sijalla on Markov-mallien estimoiminen DNA-sekvenssidatasta. Käytännön sovelluksena tästä on eri bakteerilajien osuuksien määrittäminen DNA-näytteestä. Väitöskirjassa esitetyt menetelmät on kehitetty suuriin aineistoihin liittyvät haasteet huomioiden. Silti on tarvetta kehittää niitä edelleen, jotta soveltaminen yhä suurempiin aineistoihin on mahdollista.
Subject: tilastotiede
Rights: Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.


Files in this item

Total number of downloads: Loading...

Files Size Format View
bayesian.pdf 515.0Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record