Bioinformatic tools for analysis, mining and modelling large-scale gene expression and drug testing datasets : Bioinformatic tools for analyzing large-scale biomedical datasets

Show full item record

Permalink

http://urn.fi/URN:ISBN:978-951-51-1976-6
Title: Bioinformatic tools for analysis, mining and modelling large-scale gene expression and drug testing datasets : Bioinformatic tools for analyzing large-scale biomedical datasets
Author: Mpindi, John Patrick
Contributor: University of Helsinki, Faculty of Medicine, Institute of Biomedicine, Faculty of Medicine
Institute for Molecular Medicine Finland FIMM
Publisher: Helsingin yliopisto
Date: 2016-03-11
Belongs to series: DOCTORAL PROGRAMME IN BIOMEDICINE UNIVERSITY OF HELSINKI - URN:ISSN:2342-3161
URI: http://urn.fi/URN:ISBN:978-951-51-1976-6
http://hdl.handle.net/10138/160326
Thesis level: Doctoral dissertation (article-based)
Abstract: Bioinformatic tools applied to large-scale genomic and gene expression datasets have helped in developing our understanding of the molecular basis of cancer. They have also become an important component of the drug discovery and development process, and potentially of personalized medicine for the future. Bioinformatic studies are now benefiting from the wealth of large datasets generated in laboratories through the use of new high-throughput technologies and their massive public repositories of data. As of October 2015,the GEO database (www.ncbi.nih.gov/geo/) alone comprised 1,597,783 samples across 15,040 platforms, and it is being updated on a daily basis. It is becoming evident that biological data are accumulating faster than the capacity of the scientific community to analyse, integrate and mine the data, as well as to create knowledge, understanding, and insights from the data. Thus, there is a growing need for better bioinformatic tools for analyzing, mining and modelling both local and global datasets. Many data analysis projects have called for the assembly of specialized data analysis tasks and pipelines. In the future, bioinformaticians need to be involved in both methods development and in applied bioinformatics. Methods development refers to developing new algorithms, while applied bioinformatics involves putting together existing tools/pipelines in a creative way to perform an analysis task. Bioinformatics is complicated due to the heterogeneous nature of the data, varying experimental settings, small sample sizes with little replication and the existence of many distributions in the data. There is also no uniformly accepted method for large-scale integrated data analysis. The aim of this study was to develop bioinformatic and statistical tools to perform an integrated analysis of large-scale microarray gene expression, high-throughput RNAi screening and drug testing data, as well as to demonstrate the applicability of these approaches in cancer research, drug target discovery and drug testing. First,the gene tissue index (GTI) outlier analysis method was developed to identify cancer outlier genes from large-scale microarray datasets. The need to identify genes ( outlier genes ) highly expressed in a subgroup of samples rendered some of the traditional differential expression analysis methods inadequate. The GTI method enabled the analysis and mining of outlier expression profiles from heterogeneous large-scale microarray datasets that usually contain a variable number of samples for each gene being compared. Using real and simulation study datasets, the performance of the GTI method was evaluated. We observed that the GTI performed equally well in single study settings compared to existing outlier analysis methods. Furthermore, the performance of the GTI method based on discovery studies in glioblastoma and prostate cancer was notable based on the biology of the top genes identified by the GTI. This analysis revealed many genes with outlier expression patterns, and the approach is directly applicable to the identification of drug targets and cancer biomarkers, and for cancer subtype classification studies. Secondly, there have been significant concerns over the reproducibility of high-throughput screening data in the microplate format for both RNAi screening and for drug testing data in cancer cell lines. Some of this variability may be related to the study design and statistical methods, which could be further controlled. Here, we carried out a systematic study to assess the impact of normalization methods on the reproducibility and quality of high-throughput screening data with high hit rates and drug testing with dose response data. This study revealed that the hit rate and the plate layout significantly affect the performance of normalizations, and hence the quality of high-throughput screening data. Finally, high-throughput drug testing data we reanalysed for consistency across three large-scale pharmacogenomic datasets, which were systematically processed using standardized bioinformatic analysis methods while controlling assumptions for statistical inference on large-scale data matrices. We standardized data processing and analysis methods for generating dose response curves and drug response scoring across the three datasets. For example, the concentration of one drug screened at all the three sites was merged in one standard window, and the meta-analysis was performed either between cell lines or between measurements,such as genes and drugs. The results based on standardized bioinformatic analysis of drug testing and gene expression datasets demonstrated a high correlation between two of the sites tested, and moderate agreement between the others. In conclusion, broad standardization of the methods both for laboratory measurements as well as for applied bioinformatics will be necessary to ensure greater reproducibility of biological findings in cancer research and therapeutic/biomarker discovery. I envisage that improved methods for the analysis and interpretation of large-scale datasets might accelerate our ability to advance personalised medicine.Bioinformatiikan välineitä sovelletaan suuriin genomista ja geeniekspressiota aineistot ovat auttaneet kehittämään ymmärrystämme molekyyliperustan syövän. He ovat myös tullut tärkeä osa lääkekehityksen ja kehitysprosessia, ja mahdollisesti henkilökohtaisen lääketieteen tulevaisuudessa. Bioinformatiikan tutkimukset ovat nyt hyötyvät runsaasti suurten tietosarjat laboratorioissa käyttämällä uutta suurikapasiteettisia tekniikoita ja niiden massiivinen julkinen arkistojen tietoja. Lokakuusta 2015 GEO-tietokanta (www.ncbi.nih.gov/geo/) yksin käsitti 1.597.783 näytteet poikki 15040 alustoilla, ja se päivitetään päivittäin. On käymässä selväksi, että biologista tietoa keräävät nopeammin kuin kapasiteetti tiedeyhteisön analysoida, integroida ja minun tiedot, sekä luoda tietoa, ymmärrystä ja oivalluksia datan. Näin ollen on olemassa kasvava tarve parantaa bioinformatiikan välineitä analysointia, kaivos- ja mallintaminen sekä paikallisia että globaaleja aineistoja. Monet data-analyysi projekteja ovat vaatineet kokoonpanoon erikoistietokantoja analysointitehtävänsä ja putkistojen. Tulevaisuudessa bioinformaatikkojen täytyy olla mukana molempia menetelmiä kehitys- ja soveltavan bioinformatiikan. Menetelmät kehitys viittaa uusien algoritmien, kun taas soveltavan bioinformatiikan liittyy käyttöön yhdessä olemassa olevien välineiden / putkistojen luova tapa suorittaa analyysi tehtävän. Bioinformatiikka on monimutkainen johtuen heterogeeninen tietojen luonne, vaihteleva koeasetelmia, pieni näyte koot vähän replikointi ja että on monia jakaumat aineistossa. Ei ole myöskään yhtenäisesti hyväksyttyä menetelmää laajamittaisten integroitujen tietojen analysointi. Tämän tutkimuksen tavoitteena oli kehittää bioinformatiikan ja tilastollisia työkaluja suorittaa integroidun analyysin laajamittainen microarray geenien ilmentyminen, suurikapasiteettisten RNAi seulontaan ja huumetestejä tiedot sekä osoittamaan soveltuvuutta näiden lähestymistapojen syöpätutkimuksessa, huumeiden tavoite löytö ja huumetestit. Ensinnäkin geeni kudos indeksi (GTI) poikkeavien arvojen analyysi kehitettiin tunnistamaan syövän harha geenien suuren mittakaavan microarray aineistoja. Tarve tunnistaa geenien ( "outlier geenit") erittäin ilmaistuna alaryhmä näytteiden sulatettu jotkut perinteiset differentiaalikaavojen analyysimenetelmiä riittämätön. GTI menetelmä mahdollisti analyysin ja louhinta poikkeavien ilmaisun profiileja heterogeeninen laajamittaisen mikrosirujen aineistoja yleensä sisältävät vaihtelevan määrän näytteitä kutakin geeniä verrattiin keskenään. Käytetään todellisia ja simulointitutkimus aineistoja, suorituskyky GTI menetelmää arvioitiin. Havaitsimme, että GTI suoritetaan yhtä hyvin yhdellä opetusmenetelmiään verrattuna nykyisiin outlier analyysimenetelmiä. Lisäksi suorituskyky GTI perustuva menetelmä havaintoon tutkimusten glioblastooma ja eturauhassyövän oli huomattava perustuu biologiaan alkuun geenien tunnistaa GTI. Tämä analyysi paljasti monien geenien kanssa harha ilme kuvioita, ja lähestymistapa on suoraan sovellettavissa tunnistamisen lääkekohteita ja syöpä biomarkkereita, ja syövän alatyypin luokitusta tutkimuksia. Toiseksi on tehty merkittäviä huolenaiheita toistettavuus korkean seulontaan tiedot mikrolevyjaon sekä RNAi seulontaan ja huumetestejä tietojen syöpäsolulinjoissa. Jotkut tähän voi liittyä tutkimuksen suunnittelu ja tilastollisia menetelmiä, jotka voidaan edelleen kontrolloida. Täällä, me suorittaa järjestelmällistä tutkimusta arvioimaan normalisointi menetelmiä toistettavuus ja laatu korkea seulontamenetelmien dataa suuri hitti hinnat ja huumetestit annoksesta vastetiedot. Tutkimus osoitti, että osumatarkkuus ja levyn asettelun merkittävästi vaikuttaa suorituskykyyn normalizations ja siten laatu korkea seulonnan data. Lopuksi, suurikapasiteettisten huumetestejä tietoja me analysoida uudelleen johdonmukaisuuden poikki kolme suurta farmakogenomiset aineistoja, jotka systemaattisesti prosessoidaan käyttäen standardoituja bioinformatiikan analyysimenetelmien samalla hallita oletukset tilastollisen päättelyn laajamittainen tiedon matriiseja. Standardoimme tietojenkäsittely- ja analyysimenetelmät tuottavat annos-vaste käyrät ja lääkevaste pisteytys yli kolme aineistot. Esimerkiksi pitoisuus yhden huumeen seulotaan kaikissa kolmessa toimipisteessä yhdistettiin yhteen vakionäkymään, ja meta-analyysi suoritettiin joko välillä solulinjoja tai mittausten välillä, kuten geenejä ja huumeita. Tulokset perustuvat standardoituihin bioinformatiikan analyysiin huumetestien ja geeniekspression aineistot osoitti korkean korrelaation kahden sivustoja testattu, ja maltillinen välisen toiset. Lopuksi laaja standardointi menetelmien sekä laboratorio- mittaukset sekä soveltavan bioinformatiikan on tarpeen varmistaa suurempi toistettavuus biologisten havaintojen syöpätutkimuksessa ja terapeuttinen / biomarkkereiden löytö. Olen ajatella, että parempia menetelmiä analysointiin ja tulkintaan laajamittainen aineistoja voisi kiihdyttää kykymme edistää henkilökohtaista lääketiedettä.
Subject: cancer informatics
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
bioinfor.pdf 5.379Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record