Helsingin yliopisto, Bio- ja ympäristötieteellinen tiedekuntaUniversity of Helsinki, Faculty of Biological and Environmental SciencesHelsingfors universitet, Bio- och miljövetenskapliga fakultetenPerkiö, Anna2021URN:NBN:fi:hulib-202201261097http://hdl.handle.net/10138/339169Long interspersed nuclear element 1 (LINE-1 eli L1) on retrotransposoneihin kuuluva DNA-elementti, joka kykenee kopioimaan itseään uusiin genomisiin sijainteihin. Ihmisgenomi sisältää arviolta noin 500 000 L1-lokusta, mutta vain noin 5 000:n niistä oletetaan olevan kykeneviä transkriptioon. L1:t ovat tiukan säätelyn alla ihmisen terveissä kudoksissa, mutta monien syöpien tapauksissa elementtien säätely häiriintyy johtaen niiden aktivaatioon. Eräs kyseisistä syöpätyypeistä on munasarjan huonosti erilaistunut seroosi karsinooma (eng. high-grade serous ovarian carcinoma, HGSOC), jonka on useaan otteeseen todistettu ilmentävän vahvaa L1-aktiivisuutta. Sekä L1:n transkription, että transposition on todettu vaikuttavan merkittävästi solujen toimintaan. Täten L1 on patologisesta näkökulmasta erittäin kiinnostava tutkimuskohde, jonka kautta olisi mahdollisuus löytää uusia seulonta-, tai jopa hoitokeinoja eri syöpätyypeille. Valitettavasti L1-ekspression määrittämisen on todettu olevan käytännössä hyvin haastavaa. Eräitä syitä ovat L1:n toistoinen sekvenssi ja se, että monet L1-kopiot sijaitsevat geenien sisällä. Jälkimmäisen seikan vuoksi sekvensointidatasta on vaikeaa päätellä, onko L1-sekvenssiä sisältävä transkriptinpalanen todella lähtöisin L1:n omalta promoottorilta. Tässä tutkielmassa pyrin edellä mainitut haasteet huomioon ottaen tutkimaan L1-aktiivisuutta 11:ssä HGSOC-potilaassa, joista kerättiin kasvainnäytteet sekä ennen että jälkeen kemoterapian. Vertailunäytteinä toimivat viidestä terveestä naisesta kerätyt munanjohdinnäytteet. L1-aktiivisuuden määrittäminen toteutettiin yksittäisolutason RNA-sekvensoinnin avulla, jonka perusteella L1-aktiivisuutta pyrittiin vertailemaan eri näyte- ja solutyypeissä. Lisäksi tavoitteena oli selvittää, onko L1-aktiivisuus yhteydessä geenien ilmentymiseen. L1:n oma polyadenylaatiosignaali on suhteellisen heikko, minkä seurauksesta L1-promoottorilta lähtevä transkriptio jatkuu usein alavirtaan elementin oman sekvenssin yli. Kyseiseen seikkaan perustuen käyttämäni L1-aktiivisuuden määrittelymenetelmä perustui niiden transkriptifragmenttien laskemiseen, jotka linjautuivat L1:ien alavirtaan yhden kiloemäksen kokoiseen ikkunaan. Menetelmällä pyrittiin minimoimaan elementtien toistoisuuteen liittyvät linjausongelmat. L1-aktiivisuuden määrittämisen jälkeen aktiivisten lokusten ominaisuuksia tarkasteltiin yksityiskohtaisesti pyrkien erottamaan epätodelliset löydökset niistä L1-lokuksista, joille löytyy aitoa aktiivisuutta tukevaa näyttöä. Käytännössä jälkimmäiset lokukset olivat sellaisia, joiden aktiivisuus oli keskittynyt syöpänäytteisiin, eivät korreloineet isäntägeeninsä kanssa, ja olivat aktiivisia myös kokonäyte-RNA-sekvensoinnin perusteella. Kyseisten lupaavien lokusten perusteella analysoitiin L1-ilmentymisen eroja ennen ja jälkeen kemoterapian. Lisäksi tutkittiin, onko L1:n ilmentyminen yhteydessä muutoksiin geenien aktiivisuudessa, perustuen regressiomalleihin sekä yksittäisgeeni- että geeniryhmätasolla. Tutkimuksessa selvisi, että L1-ekspressiodataan sisältyy merkittävän paljon epäaitoa aktiivisuutta. Löydös tukee ajatusta siitä, että transposonien ilmentymistä mitatessa tarkka analyysi ja laboratoriossa suoritettavat validointikokeet ovat välttämättömiä varmistamaan saadut tulokset. Vaikka tutkimukseen sisältyi paljon haasteita johtuen epäluotettavasta ja harvasta datasetistä, onnistuin kuitenkin näyttämään, että L1:n ilmentyminen on käänteisesti assosioitunut MYC-kohdegeenien ilmentymisen kanssa. MYCin on jo aiemmissa tutkimuksissa näytetty olevan L1:n aktiivisuutta rajoittava säätelijä, mikä tukee saatujen tulosten pätevyyttä. Huolimatta siitä, että tässä tutkimuksessa käytettyjen metodien avulla onnistuttiin tuottamaan aiemman tutkimuksen valossa järkeenkäypiä tuloksia, on todettava, että jatkotutkimusta vaaditaan varmistamaan tulosten biologinen merkitsevyys. Tulevaisuutta ajatellen myös jo suoritettua analyysiä olisi hyvä pyrkiä parantamaan lisäämällä L1-aktiivisuuden määrittämisen herkkyyttä, ja täten minimoida virheellinen nolla-aktiivisuus. Kyseisillä muutoksilla olisi mahdollista parantaa tilastollisen analyysin erottelukykyä. Siitä huolimatta tässä tutkielmassa käytetyillä menetelmillä onnistuttiin osoittamaan, että L1-aktiivisuuden määrittäminen yksittäissolutasolla RNA-sekvensoinnin avulla on toteutettavissa.Long interspersed nuclear element 1 (LINE-1 or L1) belongs to a class of retrotransposons. In other words, it is a DNA element that can copy and paste itself around the genome. There are approximately 500,000 copies present in humans, but only around 5,000 are expected to remain transcriptionally competent. The activity of L1s is generally strongly repressed in normal human tissues, but in many cancers, these elements are reactivated. Both L1 transposition and transcription can have significant effects on cellular function, making it an interesting topic of research from a pathological point-of-view. By studying and understanding more about this transposon, it could be possible to find novel screening methods or even therapeutics for different cancers. One of these cancer types is high-grade serous ovarian carcinoma (HGSOG), which is known for exhibiting L1 upregulation. However, the quantification of L1 transcription has been proven to be very challenging, mostly due to alignment issues caused by the repetitive nature of the element. In addition, a large proportion of L1s reside within genes, meaning that L1 sequence -containing transcripts frequently do not originate from the L1’s own promoter. This thesis aimed to tackle these challenges; I quantified L1 expression at the single-locus level in 11 pre- and post-chemo HGSOC sample pairs, as well as in 5 samples from healthy women, based on single-cell RNA-sequencing. In addition to comparing L1 activity in different sample and cell types, I researched whether L1 activity was associated with any changes in gene expression. The poly(A) site of an L1 is relatively weak, meaning that L1 transcription frequently extends over it. Based on this fact, the utilized approach was to quantify L1 expression based on reads mapping to the 1 kilobase downstream window of each L1 locus, thus minimizing the alignment issues of repetitive elements. Thereafter, the features of the detected loci were carefully assessed to separate false-positive L1s from those with evidence supporting genuine activity, such as tumor sample enriched expression, lack of correlation to host gene, and detection with bulk RNA-sequencing. The activity of the latter loci was then further analyzed to search for differences in L1 expression between pre- and post-chemo samples. In addition, the association between L1-activity and gene expression was examined based on regression models both at the individual gene and molecular signature gene set-level. It was found that L1 expression data is filled with factitiously active loci, highlighting the importance of careful analysis and wet lab validations when studying transposon activity. However, regardless of the issues arising from a sparse and unreliable dataset, I showed that L1 activity was negatively associated with the expression of MYC target genes. MYC has been previously shown to be a transcriptional repressor of the L1, indicating that the obtained results are legitimate. Even though the results obtained from this study appear to be biologically justifiable, they would require further validation to ensure their authenticity. In addition, for the future it would be essential to enhance the sensitivity of the utilized workflow to minimize the sparsity of the data, so that statistical analyses performed would become more reliable. Nevertheless, it was shown that assessing L1 expression at the single-cell level using RNA-sequencing is executable.englong interspersed nuclear elementLINE-1L1transposonisyöpämunasarjasyöpäsolutason RNA-sekvensointiLong interspersed nuclear element 1 expression in ovarian cancer at the single-cell levelSolutason long interspersed nuclear element 1 -ekspressio munasarjasyövässäpro gradu -tutkielmatGenetiikka ja genomiikkaGenetics and genomicsGenetiikka ja genomiikkaGenetiikan ja molekulaaristen biotieteiden maisteriohjelmaMaster's Programme in Genetics and Molecular BiosciencesMagisterprogrammet i genetik och molekylära biovetenskaper