Cancer genetics research methods in the next-generation sequencing era

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-951-51-5899-4
Title: Cancer genetics research methods in the next-generation sequencing era
Author: Katainen, Riku
Contributor: University of Helsinki, Faculty of Medicine
Doctoral Programme in Biomedicin
Publisher: Helsingin yliopisto
Date: 2020-03-20
Language: en
URI: http://urn.fi/URN:ISBN:978-951-51-5899-4
http://hdl.handle.net/10138/312190
Thesis level: Doctoral dissertation (article-based)
Abstract: The research in cancer genetics aims to detect genetic causes for the excessive growth of cells, which may subsequently form a tumor and further develop into cancer. The Human Genome Project succeeded in mapping the majority of the human DNA sequence, which enabled modern sequencing technologies to emerge, namely next-generation sequencing (NGS). The new era of disease genetics research shifted DNA analyses from laboratory to computer screens. Since then, the massive growth of sequencing data has been facilitating the detection of novel disease-causing mutations and thus improving the screening and medical treatments of cancer. However, the exponential growth of sequencing data brought new challenges for computing. The sheer size of the data is not only expensive to store and maintain, but also highly demanding to process and analyze. Moreover, not only has the amount of sequencing data increased, but new kinds of functional genomics data, which are instrumental in figuring out the consequences of detected mutations, have also emerged. To this end, continuous software development has become essential to enable the utilization of all produced research data, new and old. This thesis describes a software for the analysis and visualization of NGS data (publication I) that allows the integration of genomic data from various sources. The software, BasePlayer, was designed for the need of efficient and user-friendly methods that could be used to analyze and visualize massive variant, and various other types of genomic data. To this end, we developed a multi-purpose tool for the analysis of genomic data, such as DNA, RNA, ChIP-seq, and DNase. The capabilities of BasePlayer in the detection of putatively causative variants and data visualization have already been used in over twenty scientific publications. The applicability of the software is demonstrated in this thesis with two distinct analysis cases - publications II and III. The second study considered somatic mutations in colorectal cancer (CRC) genomes. We were able to identify distinct mutation patterns at the CTCF/Cohesin binding sites (CBSs) by analyzing whole-genome sequencing (WGS) data with BasePlayer. The sites were observed to be frequently mutated in CRC, especially in samples with a specific mutational signature. However, the source for the mutation accumulation remained unclear. On the contrary, a subset of samples with an ultra-mutator phenotype, caused by defective polymerase epsilon (POLE) gene, exhibited an inverse pattern at CBSs. We detected the same signal in other, predominantly gastrointestinal, cancers as well. However, we were not able to measure changes in gene expressions at mutated sites, so the role of the CBS mutations in tumorigenesis remained and still remains to be elucidated. The third study considered esophageal squamous cell carcinoma (ESCC), and the objective was to detect predisposing mutations using the Finnish Cancer Registry (FCR) data. We performed clustering analysis for the FCR data, with additional information obtained from the Population Information System of Finland. We detected an enrichment of ESCC in the Karelia region and were able to collect and sequence 30 formalin-fixed paraffin-embedded (FFPE) samples from the region. We reported several candidate genes, out of which EP300 and DNAH9 were considered the most interesting. The study not only reported putative genes predisposing to ESCC but also worked as a proof of concept for the feasibility of conducting genetic research utilizing both clustering of the FCR data and FFPE exome sequencing in such studies.Syöpägenetiikan tutkimuksen tavoitteena on löytää perimmäisiä syitä solujen liikakasvulle, joka voi johtaa kasvaimen muodostumiseen ja kehittyä edelleen syöväksi. Laajamittainen Human Genome Project, jonka tavoitteena oli selvittää ihmisen koko DNA sekvenssi (genomi) saatiin suurelta osin päätökseen vuosituhannen alussa. Kokonaisten genomien määrittäminen mahdollisti toisen sukupolven sekvensointimenetelmien (next-generation sequencing, NGS) kehityksen ja käyttöönoton. Tämä aloitti uuden aikakauden erityisesti tautigenetiikassa ja siirsi analyysit laboratorioista tietokoneiden ruuduille. NGS menetelmien tuottamat valtavat datamäärät vauhdittivat uusien geneettisten löydösten tekemistä, mutta toivat myös uusia haasteita erityisesti biologiseen tietojenkäsittelyyn - bioinformatiikkaan. Datamäärien lisäksi myös erilaisten datatyyppien määrä kasvoi ja kasvaa edelleen; kaiken tuotetun datan prosessointi analysoitavaan muotoon vaatii erittäin tehokkaita tietokoneita ja algoritmeja. Lisäksi monen eri näytteen ja datatyypin yhdistäminen (integrointi) järkeväksi kokonaisuudeksi vaatii analyysiohjelmistoilta joustavuutta ja tehokkuutta erityisesti säätelyalueisiin liittyvissä tutkimuksissa. Bioinformaattisten ohjelmistojen jatkuva kehitys on täten ensiarvoisen tärkeää, jotta kaikki tuotettu data saadaan mahdollisimman hyvin tutkijoille hyödynnettäväksi. Tässä väitöskirjassa esitellään ohjelmisto, BasePlayer, joka on kehitetty laajoihin sekvenssidata-analyyseihin ja visualisointiin (julkaisu I). BasePlayer yhdistää graafisessa käyttöliittymässä geneettiseen analyysiin tarvittavat ominaisuudet, dataintegraation sekä visualisaation. Ohjelmisto mahdollistaa esimerkiksi satojen kasvainnäytteiden samanaikaisen tarkastelun, jonka avulla voi tunnistaa altistavia tai syöpää ajavia mutaatioita geenien säätelyalueilla. BasePlayeria on käytetty jo yli kahdessakymmenessä tieteellisessä julkaisussa, joista kaksi on tämän väitöskirjan osatöinä (julkaisut II ja III). Toisessa julkaisussa etsittiin BasePlayeria hyödyntäen syöpää ajavia mutaatioita geenien säätelyalueilta käyttäen yli kahtasataa kolorektaalisyöpänäytettä. Koko-genomin kattavalla sekvensointiaineistolla havaitsimme, että osassa näytteitä mutaatioita on kertynyt runsaasti erityisesti kohesiinin sitoutumiskohtiin. Kohesiini on mukana useissa tärkeissä tehtävissä mm. DNA:n rakenteeseen ja geenien säätelyyn liittyen. Havaitsimme myös mutaatioiden vähenemän samoilla alueilla näytteissä, jotka olivat ultra-mutatoituneita (satakertainen mutaatiomäärä keskimääräisiin kolorektaalikasvaimiin verrattuna). Mutaatioiden kertymä havaittiin myös muissa, erityisesti ruoansulatuskanavan syövissä. Havaitun ilmiön rooli kasvainten kehittymisessä jäi tosin vielä selvittämättä. Kolmannessa työssä etsittiin ruokatorven syöpään altistavia geenimutaatioita. Haimme Suomen syöpärekisteriä ja väestötietojärjestelmää apuna käyttäen alueita, joissa ruokatorven syöpää esiintyi sukunimeen perustuen merkittävästi keskimääräistä enemmän. Merkittävästi rikastunut alue löytyi luovutetun Karjalan alueelta, josta saimme kerättyä ja sekvensoitua 30 arkistoitua kudosnäytettä. Hyödynsimme BasePlayerin näytevertailu-ominaisuuksia, joiden avulla havaitsimme potilaissa rikastuneet variantit normaaliväestöön verrattuna. Kiinnostavimmat tulokset liittyivät harvinaisiin variantteihin EP300 ja DNAH9 geeneissä. Mahdollisten uusien alttiusgeenien raportoinnin lisäksi tämä työ osoitti, että syöpärekisteriä hyödyntämällä voidaan löytää kuvatun kaltaisia tauti-tihentymiä ja myös sen, että arkistoitu kudosmateriaali on käyttökelpoista tämänkaltaisissa sekvensointiin pohjautuvissa tutkimuksissa.
Subject: Lääketieteellinen genetiikka
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
CANCERGE.pdf 6.268Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record