Visualizing the genetic population structure in Finland with principal component analysis and generative topographic mapping

Show full item recordPermalink

http://urn.fi/URN:NBN:fi:hulib-202012094773
Title: Visualizing the genetic population structure in Finland with principal component analysis and generative topographic mapping
Alternative title: Suomen geneettisen populaatiorakenteen visualisointi pääkomponenttianalyysillä ja generatiivisella topografisella kuvauksella
Author: Malmberg, Anni
Other contributor: Helsingin yliopisto, Matemaattis-luonnontieteellinen tiedekunta
University of Helsinki, Faculty of Science
Helsingfors universitet, Matematisk-naturvetenskapliga fakulteten
Publisher: Helsingin yliopisto
Date: 2020
Language: eng
URI: http://urn.fi/URN:NBN:fi:hulib-202012094773
http://hdl.handle.net/10138/322532
Thesis level: master's thesis
Discipline: Soveltava matematiikka
Abstract: Geneettinen rakenne populaatiossa tarkoittaa sitä, että populaatio voidaan jakaa geneettisiin alapopulaatiohin. Esimerkiksi Suomen geneettisen populaatiorakenteen on todettu olevan maantieteellisesti hyvin klusteroittunutta. Tieto populaation geneettisestä rakenteesta voi olla mielenkiintoista väestönhistorian tutkimuksen kannalta. Myös esimerkiksi tutkimuksissa, joissa pyritään selvittämään geneettisten varianttien yhteyttä johonkin perinnölliseen sairauteen tai ominaisuuteen, täytyy varmistaa, että tapaus-verrokkiryhmät eivät eroa merkittävästi geneettiseltä rakenteeltaan toisistaan muuten kuin perinnöllistä sairautta aiheuttavien geneettisten varianttien osalta. Muuten tutkimustulokset voivat vääristyä. Tutkielmassani vertaan, miten kaksi matemaattista mallia, pääkomponenttianalyysi (PCA) ja generatiivinen topografinen kuvaus (GTM), visualisoivat ja tunnistavat geneettistä populaatiorakennetta suomalaisesta aineistosta. PCA on vuonna 1901 kehitetty menetelmä jota nykyään käytetään yleisesti geneettisten populaatiorakenteiden tunnistamisessa ja visualisoimisessa. GTM on sen sijaan esitetty vuonna 1998, ja toistaiseksi sitä on sovellettu hyvin vähän populaatiorakenteiden tutkimisessa. Sekä PCA että GTM kykenevät tekemään korkeadimensioisesta aineistosta helpommin tulkittavan, visuaalisen yhteenvedon havaintojen välisistä yhteisistä ja eroavista piirteistä. Hèlèna A. Gaspar ja Gerome Breen huomasivat vuonna 2018 julkaisemassaan tutkimuksessa, että GTM pystyy havaitsemaan geneettisiä populaatiorakenteita tarkemmin kuin PCA. Heidän tutkimusaineistonsa koostui lukuisista populaatioista ympäri maailmaa, ja he totesivat, että PCA tunnisti pääosin eroja maantieteellisesti kauimpana olevien populaatioiden välillä, kun taas GTM erotti enemmän myös näiden populaatioiden alapopulaatioita toisistaan. Työni tutkimuskysymyksenä on ollut, että antavatko menetelmät samanlaisia tuloksia suomalaisella aineistolla. Lisäksi tavoitteenani on myös ollut esittää perusteellinen esitys kummankin menetelmän matemaattisesta taustasta sekä kuvailla, mihin niiden toiminta perustuu. Lopuksi pohdin, miten analyysien tulokset sopivat yhteen sen kanssa, mitä Suomen populaatiorakenteesta tiedetään aiempien tutkimusten perusteella. Tutkimuksessa käyttämäni aineisto on peräisin Terveyden ja hyvinvoinnin laitoksen vuosina 1992-2012 tekemästä FINRISKI-tutkimuksesta. Olen ensin ajanut PCA:n aineistolle SmartPCA-ohjelmalla ja sitten käyttämällä PCA:sta saatuja tuloksia, GTM:n Pythonin ugtm-paketilla. Lopulliset tulokset olen esittänyt 2010 sellaiselle yksilölle, jotka osallistuivat FINRISKI-tutkimukseen vuonna 1997 ja joiden molemmat vanhemmat olivat syntyneet lähellä toisiaan. Olen jakanut nämä yksilöt 11 erilliseen ryhmään heidän äitiensä syntymäpaikkojen mukaan selvittääkseni, että tunnistavatko PCA ja GTM samaan maantieteelliseen ryhmään kuuluvat yksilöt geneettisesti toistensa kaltaisiksi. Tulosten perusteella sekä PCA että GTM tunnistavat geneettisiä alapopulaatioita, jotka vastaavat vahvasti maantieteellisiä ryhmiä, mikä on linjassa sen kanssa, mitä Suomen populaatiorakenteesta tiedetään aiempien tutkimusten perusteella. Huomaan myös PCA:n ja GTM:n välisissä eroissa yhtäläisyyksiä Gasparin ja Breenin tekemien havaintojen kanssa: Vaikka molemmat menetelmät tunnistavat populaatiosta selkeän geneettisen rakenteen, GTM havaitsee hienovaraisempia eroja maantieteellisten ryhmien välisessä perimässä kuin PCA. GTM esimerkiksi jakaa Pohjois-Pohjanmaan ryhmään kuuluvat yksilöt neljään pienempään erilliseen ryhmään, kun taas PCA tulkitsee Pohjois-Pohjanmaan ryhmän olevan perimältään melko homogeeninen. Näiden yksilöiden sijoittaminen Suomen kartalle heidän äitiensä syntymäpaikkojen mukaan paljastaa, että yksilöt jakautuvat myös maantieteellisesti neljään eri Pohjois-Pohjanmaan alueella sijaitsevaan ryhmään, jotka vastaavat GTM:n tunnistamia geneettisiä alapopulaatioita. Loppupäätelmänä olen todennut, että GTM on varteenotettava vaihtoehto PCA:lle geneettisen populaatiorakenteen tutkimisessa, ja erityisesti silloin, kun PCA:n tulosten perusteella jokin populaatio näyttää geneettisesti homogeeniseltä. Lisäksi huomautan, että syy siihen, miksi GTM kykenee ryhmittelemään geneettisiä alapopulaatioita hienojakoisemmin kuin PCA, on luultavasti se, että PCA on lineaarinen malli ja siksi sen esittämässä yhteenvedossa populaation geneettisestä rakenteesta saattaa esiintyä enemmän vinoumia, kun taas GTM ottaa myös aineistossa esiintyvät epälineaariset suhteet huomioon.A population is said to be genetically structured when it can be divided into subpopulations based on genetic differences between the individuals. As in case of Finland for example, the population has been shown to consist of genetic subpopulations that correspond strongly to geographical subgroups. Such information may be interesting when seeking answers to questions related to the settlement and migration history of some population. Information about genetic population structure is also required for example in studies looking for associations between genetic variants and some inheritable disease to ensure that the groups with and without diagnosis of the disease resemble each other genetically except for the genetic variants causing the disease. In my thesis, I have compared how two different mathematical models, principal component analysis (PCA) and generative topographic mapping (GTM), visualize ancestry and identify genetic structure in Finnish population. PCA was introduced already in 1901, and nowadays it is a standard tool in identifying genetic structure and visualizing ancestry. GTM instead was published relatively recently, in 1998, and has not yet been applied in population structure studies as widely than PCA. Both PCA and GTM transform high-dimensional data to a low-dimensional, interpretable representation where relationships between observations of the data are summarized. In case of data containing genetic heterogeneity between individuals, this representation gives a visual approximation of the genetic structure of the population. However, Hèlèna A. Gaspar and Gerome Breen found in 2018 that GTM is able to classify ancestry of populations from around the world more accurately than PCA: the differences recognized by PCA were mainly between geographically most distant populations, while GTM detected also more their subpopulations. My aims in the thesis were to examine whether applying the methods for Finnish data would give similar results, and to give thorough presentations of the mathematical background for both the methods. I also discuss how the results fit into what is currently known about the genetic population structure in Finland. The study results are based on data from the FINRISK Study Survey collected by the National Institute for Health and Welfare (THL) in 1992-2012 and include 35 499 samples. After performing quality control on the data, I analysed the data with SmartPCA program and ugtm Python package implementing PCA and GTM, respectively. The final results have been presented for such 2010 individuals that participated the FINRISK Study Survey in 1997 and whose both parents were born close to each other. I have assigned the individuals into distinct geographical subgroups according to the birthplaces of their mothers to find out whether PCA and GTM identify individuals having a similar geographical origin to be genetically close to each other. Based on the results, the genetic structure in Finland is clearly geographically clustered, which fits into what is known from earlier studies. The results were also similar to those observed by Gaspar and Breen: Both the methods identified the genetic substructure but GTM was able to recognize more subtle differences in ancestry between the geographically defined subgroups than PCA. For example, GTM discovered the group corresponding to the region of Northern Ostrobothnia to consist of four smaller separate subgroups, while PCA interpreted the individuals with a Northern Ostrobothnian origin to be genetically rather homogeneous. Locating these individuals on the map of Finland according to the birthplaces of their mothers reveals that they also make four geographical clusters corresponding to the genetic subpopulations detected by GTM. As a final conclusion I state that GTM is a noteworthy alternative to PCA for studying genetic population structure, especially when it comes to identifying substructures from a population that PCA may interpret to be genetically homogeneous. I also note that the reason why GTM generally seems to be capable of more fine-grained clustering than PCA, is probably that PCA as a linear model may cause more bias to the results than GTM which accounts for also non-linear relationships when transforming the data into a more interpretable form.
Subject: genetic population structure
principal component analysis
PCA
generative topographic mapping
GTM
geneettinen populaatiorakenne
pääkomponenttianalyysi
generatiivinen topografinen kuvaus


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record