Modeling and learning monomeric and dimeric transcription factor binding motifs

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-951-51-5602-0
Title: Modeling and learning monomeric and dimeric transcription factor binding motifs
Author: Toivonen, Jarkko
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
Doctoral Programme in Computer Science
Publisher: Helsingin yliopisto
Date: 2019-11-22
URI: http://urn.fi/URN:ISBN:978-951-51-5602-0
http://hdl.handle.net/10138/306784
Thesis level: Doctoral dissertation (article-based)
Abstract: In this thesis we aim to learn models that can describe the sites in DNA that a transcription factor (TF) prefers to bind to. We concentrate on probabilistic models that give each DNA sequence, of fixed length, a probability of binding. The probability models used are inhomogeneous 0th and 1st order Markov chains, which are called in our terminology Position-specific Probability Matrix (PPM) and Adjacent Dinucleotide Model (ADM), respectively. We consider both the case where a single TF binds in isolation to DNA, and the case where two TFs bind to proximal locations in DNA, possibly having interactions between the two factors. We use two algorithmic approaches to this learning task. Both approaches utilize data, which is assumed to have enriched number of binding sites of the TF(s) under investigation. Then the binding sites in the data need to be located and used to learn the parameters of the binding model. Both methods also assume that the length of the binding sites is known beforehand. We first introduce a combinatorial approach where we count l-mers that are either binding sites, background noise, or belong partly to both of these categories. The most common l-mer in the data and its Hamming neighbours are declared as binding sites. Then an algorithm to align these binding sites in an unbiased manner is introduced. To avoid false binding sites, the fraction of signal in the data is estimated and used to subtract the counts that rise from the background. The second approach has the following additional benefits. The division into signal and background is done in a rigorous manner using a maximum likelihood method, thus avoiding the problems due to the ad hoc nature of the first approach. Secondly, use of a mixture model allows learning multiple models simultaneously. Then, subsequently, this mixture model is extended to include dimeric models as combinations of two binding models. We call this reduction of dimers as monomers modularity. This allows investigating the preference of each distance, even the negative distance in the overlapping case, and relative orientation between these two models. The most likely mixture model that explains the data is optimized using an EM algorithm. Since all the submodels belong to the same mixture model, their relative popularity can be directly compared. The mixture model gives an intuitive and unified view of the different binding modes of a single TF or a pair of TFs. Implementations of all introduced algorithms, SeedHam and MODER for learning PPM models and MODER2 for learning ADM models, are freely available from GitHub. In validation experiments ADM models were observed to be slightly but consistently better than PPM models in explaining binding-site data. In addition, learning modularic mixture models confirmed many previously detected dimeric structures and gave new biological insights about different binding modes and their compact representations.Jokaisen elämänmuodon toiminta ja lisääntyminen perustuu informaatioon, joka on talletettu soluissa olevaan DNA:han. DNA:n sisältämien geenien informaatio kopioidaan RNA:ksi, jota käytetään valmistusohjeena proteiineille, jotka ovat solujen ja niiden koneistojen rakennusaineita. Jokainen ihmisen solu, sukusoluja lukuunottamatta, sisältää saman DNA:n. Erityyppiset solut ovat täysin erinäköisiä ja toimivat eri tavalla kuin toiset solut. Esimerkiksi maksasolu on erimuotoinen ja -kokoinen kuin hermosolu. Tämä selittyy sillä, että eri solutyypeissä ovat aktiivisina osittain eri geenit kuin toisissa solutyypeissä. Ainoastaan aktiivisista geeneistä tuotetaan proteiineja. Eräs tapa vaikuttaa geenien aktiivisuuteen on säädellä geenien sisällön kopioimista RNA:ksi. Tietyt proteiinit, niin sanotut säätelytekijät, voivat vaikuttaa tähän kopioimiseen sitoutumalla geeniin liittyvään säätelyalueeseen. Täten on geenien säätelyn ymmärtämiseksi tärkeä pystyä selittämään säätelytekijöiden sitoutuminen DNA:han, ja näin myös löytää DNA:sta geenien säätelyyn liittyvät alueet. Tässä väitöskirjassa pyritään oppimaan malleja, joilla voidaan kuvata DNA:n alueita, joihin geenien säätelytekijät sitoutuvat, ja arvioida tämän sitoutumisen voimakkuutta. Työssä keskitytään todennäköisyysmalleihin, jotka antavat jokaiselle kiinteän pituiselle DNA-sekvenssille sitoutumistodennäköisyyden. Käytetyt todennäköisyysmallit ovat epähomogeenisia nollannen tai ensimmäisen asteen Markov-ketjuja, joita tässä työssä kutsutaan vastaavasti positioriippuviksi todennäköisyysmatriiseiksi (PPM) tai vierekkäisten dinukleotidien malliksi (ADM). Työssä tutkitaan sekä monomeerista tapausta, jossa yksi säätelytekijä sitoutuu DNA:han vailla muita tekijöitä, että dimeeristä tapausta, jossa kaksi säätelytekijää sitoutuvat lähekkäisiin alueisiin. Jälkimmäisessä tapauksessa kaksi säätelytekijää voivat olla vuorovaikutuksessa keskenään. Tässä tutkimuksessa käytetään kahta eri algoritmista lähestymistapaa sitoutumismallien oppimiseen: kombinatorista ja todennäköisyyksiin pohjautuvaa menetelmää. Kummatkin lähestymistavat käyttävät dataa, jonka oletetaan sisältävän runsaasti tutkittavan säätelytekijän sitoutumispaikkoja. Nämä sitoutumispaikat tulee paikantaa ja käyttää sitoutumismallin parametrien oppimiseen. Työssä esiteltyjen algoritmien (SeedHam, MODER ja MODER2) toteutukset ovat vapaasti saatavilla GitHub-palvelimelta. Menetelmien validoinnissa havaittiin, että niiden tuottamat mallit sekä vahvistivat aiempia biologisia tuloksia että antoivat uusia biologisia näkökulmia sitoutumismalleihin ja niiden tiiviisiin esityksiin.
Subject: Computer Science
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
Modeling.pdf 521.5Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record