Biomedical Data Integration in Cancer Genomics

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-951-51-1434-1
Title: Biomedical Data Integration in Cancer Genomics
Author: Louhimo, Riku
Contributor organization: University of Helsinki, Faculty of Medicine, Institute of Biomedicine, Research Programs Unit
Helsingin yliopisto, lääketieteellinen tiedekunta, biolääketieteen laitos
Helsingfors universitet, medicinska fakulteten, biomedicinska institutionen
Publisher: Helsingin yliopisto
Date: 2015-09-04
Language: eng
URI: http://urn.fi/URN:ISBN:978-951-51-1434-1
http://hdl.handle.net/10138/155709
Thesis level: Doctoral dissertation (article-based)
Abstract: Cancer is one of the leading causes of death in industrialized nations and its incidence is steadily increasing due to population aging. Cancer constitutes a group of diseases characterized by unwanted cellular growth which results from random genomic alterations and environmental exposure. Diverse genomic and epigenomic alterations separately and jointly regulate gene expression and stimulate and support neoplastic growth. More effective treatment, earlier and more accurate diagnosis, and improved management of cancer are important for public health and well-being. Technological improvements in data measurement, storing and transport capability are transforming cancer research to a data-intensive field. The large increases in the quality and quantity of data for the analysis and interpretation of experiments has made employing computational and statistical tools necessary. Data integration - the combination of different types of measurement data - is a valuable computational tool for cancer research because data integration improves the interpretability of data-driven analytics and can thereby provide novel prognostic markers and drug targets. I have developed two computational data integration tools for large-scale genomic data and a simulator framework for testing a specific type of data integration algorithm. The first computational method, CNAmet, enhances the interpretation of genomic analysis results by integrating three data levels: gene expression, copy-number alteration, and DNA methylation. The second computational method, GOPredict, uses a knowledge discovery approach to prioritize drugs for patient cohorts thereby stratifying patients into potentitally drug-sensitive subgroups. Using the simulator framework, we are able to compare the performance of integration algorithms which integrate gene copy-number data with gene expression data to find putative cancer genes. Our experimental results indicate in simulated, cell line, and primary tumor data that well-performing integration algorithms for gene copy-number and expression data use and process genomic data appropriately. Applying these methods to diffuse large B-cell lymphoma, integrative analysis of copy-number and expression data helps to uncover a gene with putative prognostic utility. Furthermore, analysis of glioblastoma brain cancer data with CNAmet suggests that a number of known cancer genes, including the epidermal growth factor receptor, are highly expressed due to co-occuring alterations in their promoter DNA methylation and copy-number. Finally, integration of publicly available molecular and literature data with GOPredict suggests that treating patients with FGFR inhibitors in breast cancer and CDK inhibitors in ovarian cancer could support standard drug therapies. Collectively, the methods developed here and their application to varied molecular cancer data sets illustrates the benefits of data integration in cancer genomics.Syöpä on yksi yleisimmistä kuolinsyistä teollisuusmaissa ja sen esiintyvyys kasvaa tasaisesti väestön vanhetessa. Syöpä käsittää joukon sairauksia, joiden yhteispiirteenä on ei-toivottu solujen uudiskasvu. Uudiskasvu on seurasta genomin sattumanvaraisista sekä ympäristövaikutteisista muutoksista. Monitahoiset genomiset ja epigenomiset muutokset yhdessä ja erikseen säätelevät ja ohjaavat geenien ilmentymistä sekä edesauttavat ja tukevat syövän kasvamista. Hoidon tehostaminen, aikaisempi ja osuvampi taudin määritys, ja parempi syövänhallinta ovat merkittäviä haasteita kansanterveydelle. Teknologinen kehitys tiedon mittauksessa, säilömisessä ja siirrossa on muuttanut syöpätutkimuksen dataintensiiviseksi alaksi. Aineistojen määrän ja laadun suuri kasvu on tehnyt laskennallisista ja tilastollisista menetelmistä välttämättömiä työkaluja. Data-integraatio - erilaisten mitta-aineistojen yhdistäminen - on syöpätutkimukselle arvokas laskennallinen työkalu, sillä sen käyttö parantaa aineistolähteisen tutkimuksen tulkintaa ja tällä tavoin edesauttaa uusien ennustetekijöiden ja lääkekohteiden tunnistamista. Olen kehittänyt kaksi laskennallista työkaluja suurien genomiaineistojen yhdistämiseen sekä aineistosimulaattorin erityyppisten genomisten aineistojen yhdistämisohjelmien koestamiseen. Ensimmäinen laskennallinen työkalu, CNAmet, parantaa genomiaineistojen analyysin tulkintaa yhdistämällä kolmea eri tyyppistä mittaustietoa: geeni-ilmentymän, kopiolukumuutosten ja DNA-metylaation. Toinen laskennallinen työkalu, GOPredict, käyttäen automaattista tiedonmääritystä panee lääkkeet tärkeysjärjestykseen potilaskohortissa ja täten tunnistaa mahdollisesti lääkeherkät potilasalijoukot. Aineistosimulaattorilla vertailemme eri yhdistämisalgoritmien suorityskykyä menetelmillä, jotka yhdistävät geenien kopiolukumittaustietoa ja ilmentymämittaustietoa löytääkseen mahdollisia syöpägeenejä. Kokeelliset tuloksemme simulaatio-, solulinja- ja kasvainaineistoissa osoittavat, että parhaat kopioluvun ja geeninilmentymistä yhdistävät työkalut käsittelevät kopiolukumittauksia oikealla tavalla. Kun näitä menetelmiä käytetään suurisoluiseen B-solulymfoomaan, geenien kopioluku- ja ilmentymätiedon yhdistäminen auttaa löytämään mahdollisen ennustetekijägeenin. Glioblastooma syöpäkasvaimien analysointi CNAmet-työkalulla antaa osviittaa, että osa tunnetuista syöpägeeneistä ilmenee voimakkaasti johtuen samanaikaisesti sattuvista muutoksista geenien promoottorien DNA-metylaatiossa ja geenien kopioluvussa. Lopuksi, avoimen molekulääristen ja kirjallisuusaineistojen yhdistäminen GOPredictillä antaa ymmärtää, että FGFR-estäjien käyttö rintasyövässä ja CDK-estäjien käyttö munasarjasyövässä saattaisi tukea vakiohoitoja. Kaiken kaikkiaan tässä työssä kehitetyt työkalut ja niiden käyttö monitahoisiin molekyläärisiin syöpäaineistoihin havainnollistavat data-integraation käytön hyödyllisyyden syöpägenomisten aineistojen käsittelyssä.
Subject: syöpätaudit
Rights: Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.


Files in this item

Total number of downloads: Loading...

Files Size Format View
biomedic.pdf 547.8Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record