On Model Selection for Bayesian Networks and Sparse Logistic Regression

Show full item record

Permalink

http://urn.fi/URN:ISBN:978-951-51-2968-0
Title: On Model Selection for Bayesian Networks and Sparse Logistic Regression
Author: Zou, Yuan
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
Thesis level: Doctoral dissertation (article-based)
Abstract: Model selection is one of the fundamental tasks in scientific research. In this thesis, we addresses several research problems in statistical model selection, which aims to select a statistical model that fits the data best. We focus on the model selection problems in Bayesian networks and logistic regression from both theoretical and practical aspects. We first compare different model selection criteria for learning Bayesian networks and focus on the Fisher information approximation (FIA) criterion. We describe how FIA fails when the candidate models are complex and there is only limited data available. We show that although the Bayesian information criterion (BIC) is a more coarse than FIA, it achieves better results in most of the cases. Then, we present a method named Semstem, based on the structural expectation maximization algorithm, for learning stemmatic trees as a special type of Bayesian networks, which model the evolutionary relationships among historical manuscripts. Semstem selects best models by the maximum likelihood criterion, which is equivalent to BIC in this case. We show that Semstem achieves results with usually higher accuracies and better interpretability than other popular methods when applied on two benchmark data sets. Before we turn to the topic of learning another type of Bayesian networks, we start with a study on how to efficiently learn interactions among variables. To reduce the search space, we apply basis functions on the input variables and transform the original problem into a model selection problem in logistic regression. Then we can use Lasso to select a small set of effective predictors out of a large set of candidates. We show that the Lasso-based method is more robust than an earlier method under different situations. We extend the Lasso-based method for learning Bayesian networks with local structure, i.e. regularities in conditional probability distributions. We show that our method is more suitable than some classic methods that do not consider local structure. Moreover, when the local structure is complex, our method outperforms two other methods that are also designed for learning local structure.Mallinvalinta on eräs tieteellisen tutkimuksen perustavanlaatuisista ongelmista. Tässä väitöskirjassa käsittelemme useita tutkimuskysymyksiä liittyen tilastollisen mallinvalintaan, jossa tavoitteena on valita aineistoon parhaiten sopiva tilastollinen malli. Tarkastelemme Bayes-verkkojen ja logistisen regression mallinvalintaongelmia sekä teoreettisesta että soveltavasta näkökulmasta. Vertaamme ensin eri mallinvalintakriteereitä Bayes-verkkojen oppimiseen ja keskitymme Fisher-informaatioapproksimaatioon (Fisher Information Approximation, FIA) pohjautuvaan kriteeriin. Näytämme, että FIA epäonnistuu mallinvalinnassa kun kandidaattimallit ovat monimutkaisia ja aineiston määrä on rajoitettu. Osoitamme, että vaikka bayesiläinen informaatiokriteeri (Bayesian Information Criterion, BIC) on FIA:ta karkeampi, se tuottaa useimmiten parempia tuloksia. Seuraavaksi esittelemme rakenteelliseen odotusarvon maksimointiin perustuvan Semstem-algoritmin, jota voidaan käyttää historiallisten käsikirjoitusten evolutionaarisia suhteita mallintavien stemmatologisten puiden oppimiseen Bayes-verkkojen erikoistapauksina. Semstem valitsee parhaat mallit käyttämällä suurimman uskottavuuden kriteeriä, joka on tässä tapauksessa yhtäpitävä BIC:n kanssa. Näytämme, kuinka Semstem tuottaa kahdella suorituskyvyn mittaamiseen käytetyllä aineistolla yleensä tarkempia ja paremmin tulkittavia tuloksia kuin tietyt muut tunnetut menetelmät. Ennen kuin käsittelemme eräitä toisentyyppisiä Bayes-verkkoja, tarkastelemme tehokasta muuttujienvälisten yhteisvaikutusten oppimista. Sovellamme syötemuuttujiin kantafunktioita pienentääksemme hakuavaruutta ja muunnamme alkuperäisen ongelman logistisen regression mallinvalintaongelmaksi. Näin voimme käyttää Lasso-menetelmää valitsemaan pienen ja tehokkaan osajoukon suuresta joukosta ennustemuuttujia. Näytämme, että Lasso-perustainen menetelmä on useissa eri tilanteissa vakaampi kuin eräs aiempi menetelmä. Laajennamme Lassoon perustuvaa menetelmää sellaisten Bayes-verkkojen oppimiseen, jotka sisältävät paikallisia rakenteita eli säännönmukaisuuksia ehdollisissa todennäköisyysjakaumissa. Osoitamme menetelmämme olevan tehtävään soveltuvampi kuin eräät klassiset menetelmät, jotka eivät huomioi paikallisia rakenteita. Jos paikalliset rakenteet ovat monimutkaisia, menetelmämme tulokset ovat lisäksi parempia kuin kahden muun paikallisten rakenteiden oppimiseen suunnitellun menetelmän.
URI: URN:ISBN:978-951-51-2968-0
http://hdl.handle.net/10138/174619
Date: 2017-03-03
Subject: Computer Science
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
OnModelS.pdf 643.2Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record