Browsing by Subject "tilastotiede"

Sort by: Order: Results:

Now showing items 1-20 of 36
  • Kotamäki, Niina; Järvinen, Marko; Kauppila, Pirkko; Korpinen, Samuli; Lensu, Anssi; Malve, Olli; Mitikka, Sari; Silander, Jari; Kettunen, Juhani (Springer, 2019)
    Environmental Monitoring Assessment 191, 318 (2019)
    The representativeness of aquatic ecosystem monitoring and the precision of the assessment results are of high importance when implementing the EU’s Water Framework Directive that aims to secure a good status of waterbodies in Europe. However, adapting monitoring designs to answer the objectives and allocating the sampling resources effectively are seldom practiced. Here, we present a practical solution how the sampling effort could be re-allocated without decreasing the precision and confidence of status class assignment. For demonstrating this, we used a large data set of 272 intensively monitored Finnish lake, coastal, and river waterbodies utilizing an existing framework for quantifying the uncertainties in the status class estimation. We estimated the temporal and spatial variance components, as well as the effect of sampling allocation to the precision and confidence of chlorophyll-a and total phosphorus. Our results suggest that almost 70% of the lake and coastal waterbodies, and 27% of the river waterbodies, were classified without sufficient confidence in these variables. On the other hand, many of the waterbodies produced unnecessary precise metric means. Thus, reallocation of sampling effort is needed. Our results show that, even though the studied variables are among the most monitored status metrics, the unexplained variation is still high. Combining multiple data sets and using fixed covariates would improve the modeling performance. Our study highlights that ongoing monitoring programs should be evaluated more systematically, and the information from the statistical uncertainty analysis should be brought concretely to the decision-making process.
  • Valaste, Maria (Helsingin yliopisto, 2015)
    In sample surveys, the uncertainty of parameter estimates comes from two main sources: sampling and measuring the study units. Some aspects of survey errors are quite well understood (e.g. sampling errors, nonresponse errors) and reported but others, like measurement errors, are often neglected. This thesis studies measurement uncertainty in covariates. Focus is on the adjustment for covariate measurement errors in logistic regression for cluster-correlated data. Three methods for adjustment for covariate measurement errors in surveys are studied. The methods are Maximum Likelihood, Multiple Imputation and Regression Calibration. These methods require information obtained from validation study. The thesis consists of a theoretical part and extensive Monte Carlo simulation experiments. At the first simulation experiment, the simulation study is conducted with artificial data and with independent observations to test and have experience of the three methods: MI, ML and RC. The second and third simulation study is performed with cluster-correlated data. In these simulation studies, the first simulation uses artificial data and the latter uses real data. In both simulations regression calibration and multiple imputation approaches are examined in various simulation designs. The quality of the methods is assessed by the bias and accuracy. The bias is measured by absolute relative bias percentages (ARB%) and the accuracy by relative root mean-squared error percentages (RRMSE%). The results suggest that additional information from validation (calibration) data enables more accurate estimates in terms of bias percentages.
  • Pirinen, Matti (Helsingin yliopisto, 2009)
    Genetics, the science of heredity and variation in living organisms, has a central role in medicine, in breeding crops and livestock, and in studying fundamental topics of biological sciences such as evolution and cell functioning. Currently the field of genetics is under a rapid development because of the recent advances in technologies by which molecular data can be obtained from living organisms. In order that most information from such data can be extracted, the analyses need to be carried out using statistical models that are tailored to take account of the particular genetic processes. In this thesis we formulate and analyze Bayesian models for genetic marker data of contemporary individuals. The major focus is on the modeling of the unobserved recent ancestry of the sampled individuals (say, for tens of generations or so), which is carried out by using explicit probabilistic reconstructions of the pedigree structures accompanied by the gene flows at the marker loci. For such a recent history, the recombination process is the major genetic force that shapes the genomes of the individuals, and it is included in the model by assuming that the recombination fractions between the adjacent markers are known. The posterior distribution of the unobserved history of the individuals is studied conditionally on the observed marker data by using a Markov chain Monte Carlo algorithm (MCMC). The example analyses consider estimation of the population structure, relatedness structure (both at the level of whole genomes as well as at each marker separately), and haplotype configurations. For situations where the pedigree structure is partially known, an algorithm to create an initial state for the MCMC algorithm is given. Furthermore, the thesis includes an extension of the model for the recent genetic history to situations where also a quantitative phenotype has been measured from the contemporary individuals. In that case the goal is to identify positions on the genome that affect the observed phenotypic values. This task is carried out within the Bayesian framework, where the number and the relative effects of the quantitative trait loci are treated as random variables whose posterior distribution is studied conditionally on the observed genetic and phenotypic data. In addition, the thesis contains an extension of a widely-used haplotyping method, the PHASE algorithm, to settings where genetic material from several individuals has been pooled together, and the allele frequencies of each pool are determined in a single genotyping.
  • Tang, Jing (Helsingin yliopisto, 2009)
    Bacteria play an important role in many ecological systems. The molecular characterization of bacteria using either cultivation-dependent or cultivation-independent methods reveals the large scale of bacterial diversity in natural communities, and the vastness of subpopulations within a species or genus. Understanding how bacterial diversity varies across different environments and also within populations should provide insights into many important questions of bacterial evolution and population dynamics. This thesis presents novel statistical methods for analyzing bacterial diversity using widely employed molecular fingerprinting techniques. The first objective of this thesis was to develop Bayesian clustering models to identify bacterial population structures. Bacterial isolates were identified using multilous sequence typing (MLST), and Bayesian clustering models were used to explore the evolutionary relationships among isolates. Our method involves the inference of genetic population structures via an unsupervised clustering framework where the dependence between loci is represented using graphical models. The population dynamics that generate such a population stratification were investigated using a stochastic model, in which homologous recombination between subpopulations can be quantified within a gene flow network. The second part of the thesis focuses on cluster analysis of community compositional data produced by two different cultivation-independent analyses: terminal restriction fragment length polymorphism (T-RFLP) analysis, and fatty acid methyl ester (FAME) analysis. The cluster analysis aims to group bacterial communities that are similar in composition, which is an important step for understanding the overall influences of environmental and ecological perturbations on bacterial diversity. A common feature of T-RFLP and FAME data is zero-inflation, which indicates that the observation of a zero value is much more frequent than would be expected, for example, from a Poisson distribution in the discrete case, or a Gaussian distribution in the continuous case. We provided two strategies for modeling zero-inflation in the clustering framework, which were validated by both synthetic and empirical complex data sets. We show in the thesis that our model that takes into account dependencies between loci in MLST data can produce better clustering results than those methods which assume independent loci. Furthermore, computer algorithms that are efficient in analyzing large scale data were adopted for meeting the increasing computational need. Our method that detects homologous recombination in subpopulations may provide a theoretical criterion for defining bacterial species. The clustering of bacterial community data include T-RFLP and FAME provides an initial effort for discovering the evolutionary dynamics that structure and maintain bacterial diversity in the natural environment.
  • Jääskinen, Väinö (Helsingin yliopisto, 2015)
    In various fields of knowledge we can observe that the availability of potentially useful data is increasing fast. A prime example is the DNA sequence data. This increase is both an opportunity and a challenge as new methods are needed to benefit from the big data sets. This has sparked a fruitful line of research in statistics and computer science that can be called machine learning. In this thesis, we develop machine learning methods based on the Bayesian approach to statistics. We address a fairly general problem called clustering, i.e. dividing a set of objects to non-overlapping group based on their similarity, and apply it to models with Markovian dependence structures. We consider sequence data in a finite alphabet and present a model class called the Sparse Markov chain (SMC). It is a special case of a Markov chain (MC) model and offers a parsimonious description of the data generating mechanism. A Variable length Markov chain (VLMC) is a popular sparse model presented earlier in the literature and it has a representation as an SMC model. We develop Bayesian clustering methodology for learning the SMC and other Markovian models. Another problem that we study in this thesis is causal inference. We present a model and an algorithm for learning causal mechanisms from data. The model can be considered as a stochastic extension of the sufficient-component cause model that is popular in epidemiology. In our model there are several causal mechanisms each with its own parameters. A mixture distribution gives a probability that an outcome variable is associated with a mechanism. Applications that are considered in this thesis come mainly from computational biology. We cluster states of Markovian models estimated from DNA sequences. This gives an efficient description of the sequence data when comparing to methods reported in the literature. We also cluster DNA sequences with Markov chains, which results in a method that can be used for example in the estimation of bacterial community composition in a sample from which DNA is extracted. The causal model and the related learning algorithm are able to estimate mechanisms from fairly challenging data. We have developed the learning algorithms with big data sets in mind. Still, there is a need to develop them further to handle ever larger data sets.
  • Kalliovirta, Leena (Helsingin yliopisto, 2009)
    This thesis studies quantile residuals and uses different methodologies to develop test statistics that are applicable in evaluating linear and nonlinear time series models based on continuous distributions. Models based on mixtures of distributions are of special interest because it turns out that for those models traditional residuals, often referred to as Pearson's residuals, are not appropriate. As such models have become more and more popular in practice, especially with financial time series data there is a need for reliable diagnostic tools that can be used to evaluate them. The aim of the thesis is to show how such diagnostic tools can be obtained and used in model evaluation. The quantile residuals considered here are defined in such a way that, when the model is correctly specified and its parameters are consistently estimated, they are approximately independent with standard normal distribution. All the tests derived in the thesis are pure significance type tests and are theoretically sound in that they properly take the uncertainty caused by parameter estimation into account. -- In Chapter 2 a general framework based on the likelihood function and smooth functions of univariate quantile residuals is derived that can be used to obtain misspecification tests for various purposes. Three easy-to-use tests aimed at detecting non-normality, autocorrelation, and conditional heteroscedasticity in quantile residuals are formulated. It also turns out that these tests can be interpreted as Lagrange Multiplier or score tests so that they are asymptotically optimal against local alternatives. Chapter 3 extends the concept of quantile residuals to multivariate models. The framework of Chapter 2 is generalized and tests aimed at detecting non-normality, serial correlation, and conditional heteroscedasticity in multivariate quantile residuals are derived based on it. Score test interpretations are obtained for the serial correlation and conditional heteroscedasticity tests and in a rather restricted special case for the normality test. In Chapter 4 the tests are constructed using the empirical distribution function of quantile residuals. So-called Khmaladze s martingale transformation is applied in order to eliminate the uncertainty caused by parameter estimation. Various test statistics are considered so that critical bounds for histogram type plots as well as Quantile-Quantile and Probability-Probability type plots of quantile residuals are obtained. Chapters 2, 3, and 4 contain simulations and empirical examples which illustrate the finite sample size and power properties of the derived tests and also how the tests and related graphical tools based on residuals are applied in practice.
  • Marttinen, Pekka (Helsingin yliopisto, 2008)
    Advancements in the analysis techniques have led to a rapid accumulation of biological data in databases. Such data often are in the form of sequences of observations, examples including DNA sequences and amino acid sequences of proteins. The scale and quality of the data give promises of answering various biologically relevant questions in more detail than what has been possible before. For example, one may wish to identify areas in an amino acid sequence, which are important for the function of the corresponding protein, or investigate how characteristics on the level of DNA sequence affect the adaptation of a bacterial species to its environment. Many of the interesting questions are intimately associated with the understanding of the evolutionary relationships among the items under consideration. The aim of this work is to develop novel statistical models and computational techniques to meet with the challenge of deriving meaning from the increasing amounts of data. Our main concern is on modeling the evolutionary relationships based on the observed molecular data. We operate within a Bayesian statistical framework, which allows a probabilistic quantification of the uncertainties related to a particular solution. As the basis of our modeling approach we utilize a partition model, which is used to describe the structure of data by appropriately dividing the data items into clusters of related items. Generalizations and modifications of the partition model are developed and applied to various problems. Large-scale data sets provide also a computational challenge. The models used to describe the data must be realistic enough to capture the essential features of the current modeling task but, at the same time, simple enough to make it possible to carry out the inference in practice. The partition model fulfills these two requirements. The problem-specific features can be taken into account by modifying the prior probability distributions of the model parameters. The computational efficiency stems from the ability to integrate out the parameters of the partition model analytically, which enables the use of efficient stochastic search algorithms.
  • Mehtälä, Juha (Helsingin yliopisto, 2015)
    Continuous-time Markov processes with a finite state space can be used to model countless real world phenomena. Therefore, researchers often encounter the problem of estimating the transition rates that govern the dynamics of such processes. Ideally, the estimation of transition rates would be based on observed transition times between the states in the model, i.e., on continuous-time observation of the process. However, in many practical applications only the current status of the process can be observed on a pre-defined set of time points (discrete-time observations). The estimation of transition rates is considerably more challenging when based on discrete-time data as compared to continuous observation. The difficulty arises from missing data due to the unknown evolution of the process between the actual observation times. To be able to estimate the rates reliably, additional constraints on how they vary in time will usually be necessary. A real world application considered in this thesis involves the asymptomatic carriage state (colonisation) with the bacterium \textit{Streptococcus pneumoniae} (the pneumococcus). The pneumococcus has over 90 strains and for understanding the dynamics of the pneumococcus among humans it is important to understand within-host competition between these strains. Research questions regarding competition in this thesis are: does colonisation by one serotype protect from acquisition of other serotypes and is clearance affected by concurrent colonisation by other serotypes? A question regarding the implication of competition to pneumococcal dynamics after vaccination is also of interest. In addition, vaccine protection may be heterogeneous across individuals, leading to a question about how well such vaccine protection can be estimated from discrete-time data. When only discrete-time observations are available, the decision when to measure the current status of the process is particularly important. With measurements that are temporally apart from each other, information about the state of the process at one point does not give information about the state at the other points. When measurements are very close to each other, knowing the state at one point bears information about the state at other, temporally close points. This thesis addresses the estimation of transition rates based on repeated observations of the current status of an underlying continuous-time Markov process. Applications to actual data concern the process of pneumococcal colonisation. Optimal study designs are considered for improved future studies of similar type, applications including but not limited to pneumococcal colonisation studies.
  • Kohonen, Jukka (Helsingin yliopisto, 2015)
    Clustering is a central task in computational statistics. Its aim is to divide observed data into groups of items, based on the similarity of their features. Among various approaches to clustering, Bayesian model-based clustering has recently gained popularity. Many existing works are based on stochastic sampling methods. This work is concerned with exact, exponential-time algorithms for the Bayesian model-based clustering task. In particular, we consider the exact computation of two summary statistics: the number of clusters, and pairwise incidence of items in the same cluster. We present an implemented algorithm for computing these statistics substantially faster than would be achieved by direct enumeration of the possible partitions. The method is practically applicable to data sets of up to approximately 25 items. We apply a variant of the exact inference method into graphical models where a given variable may have up to four parent variables. The parent variables can then have up to 16 value combinations, and the task is to cluster them and find combinations that lead to similar conditional probability tables. Further contributions of this work are related to number theory. We show that a novel combination of addition chains and additive bases provides the optimal arrangement of multiplications, when the task is to use repeated multiplication starting from a given number or entity, but only a certain kind of function of the successive powers is required. This arrangement speeds up the computation of the posterior distribution for the number of clusters. The same arrangement method can be applied to other multiplicative tasks, for example, in matrix multiplication. We also present new algorithmic results related to finding extremal additive bases. Before this work, the extremal additive bases were known up to length 23. We have computed them up to length 24 in the unrestricted case, and up to length 41 in the restricted case.
  • Kilpi, Jorma (Helsingin yliopisto, 2022)
    This thesis is motivated by the need to analyse measured traffic data from networks. It develops and applies statistical methods to characterize and to model such data. The application areas are related to teletraffic and telecommunication networks, vehicular traffic and road/street networks, and Internet of Things applications. The research is based on four scientific publications, augmented with the statistical framework and theoretical development included in this summary. From the applications' point of view, the addressed research problems diverge on the types of the engineering problems, while from the statistical point of view, they share common theoretical methods. The application problems are: i) to study whether a Gaussian process is a feasible model for aggregated Internet traffic, ii) to obtain aggregated flow level models for flow sizes, flow durations and their bivariate joint distribution, iii) to deduce vehicular traffic routes from correlated counts of vehicles that are observed at different locations of a street network, and iv) to develop a data reduction algorithm that works with limited computational capacity and can be deployed by Internet of Things applications. This summary provides the statistical framework that combines the developed and applied methodologies and emphasizes their common features. Rigorous mathematical proofs are given for certain less-known, possibly novel, results about mutual information of pairs of order statistics, and a convergence result related to simultaneous estimation of several quantiles. These were used in the publications or, alternatively, bring new statistical insight to the methods that were used in the publications.
  • Myrskylä, Mikko (Helsingin yliopisto, 2007)
    This study examines the properties of Generalised Regression (GREG) estimators for domain class frequencies and proportions. The family of GREG estimators forms the class of design-based model-assisted estimators. All GREG estimators utilise auxiliary information via modelling. The classic GREG estimator with a linear fixed effects assisting model (GREG-lin) is one example. But when estimating class frequencies, the study variable is binary or polytomous. Therefore logistic-type assisting models (e.g. logistic or probit model) should be preferred over the linear one. However, other GREG estimators than GREG-lin are rarely used, and knowledge about their properties is limited. This study examines the properties of L-GREG estimators, which are GREG estimators with fixed-effects logistic-type models. Three research questions are addressed. First, I study whether and when L-GREG estimators are more accurate than GREG-lin. Theoretical results and Monte Carlo experiments which cover both equal and unequal probability sampling designs and a wide variety of model formulations show that in standard situations, the difference between L-GREG and GREG-lin is small. But in the case of a strong assisting model, two interesting situations arise: if the domain sample size is reasonably large, L-GREG is more accurate than GREG-lin, and if the domain sample size is very small, estimation of assisting model parameters may be inaccurate, resulting in bias for L-GREG. Second, I study variance estimation for the L-GREG estimators. The standard variance estimator (S) for all GREG estimators resembles the Sen-Yates-Grundy variance estimator, but it is a double sum of prediction errors, not of the observed values of the study variable. Monte Carlo experiments show that S underestimates the variance of L-GREG especially if the domain sample size is minor, or if the assisting model is strong. Third, since the standard variance estimator S often fails for the L-GREG estimators, I propose a new augmented variance estimator (A). The difference between S and the new estimator A is that the latter takes into account the difference between the sample fit model and the census fit model. In Monte Carlo experiments, the new estimator A outperformed the standard estimator S in terms of bias, root mean square error and coverage rate. Thus the new estimator provides a good alternative to the standard estimator.
  • Leivonen, Aku (Helsingin yliopisto, 2020)
    Oikeudellisten ilmiöiden tilastollinen mallintaminen on vielä harvinaista Suomessa. Tutkielmassa mallinnetaan lasten huolto- ja asumisriitoja hovioikeuksissa järjestysregressiomallilla. Oikeuden päätökset huolto- ja asumisriidoissa voidaan luokitella järjestysasteikolla, missä asteikon toinen pää käsittää äidin voittoluokat ja toinen isän voittoluokat. Mallin tarkoitus on löytää keskeiset oikeuden päätöstä sekä äitien ja isien voittomahdollisuuksia selittävät tekijät. Mallia voidaan käyttää myös uuden riidan lopputuloksen ennustamiseen. Koska osapuolten vaatimukset rajoittavat sen, millaisen päätöksen oikeus voi antaa, niin mallia laajennetaan skaala- ja nominaalivaikutuksilla. Vastaavaa laajennettua järjestysregressiomallia ei ole sovellettu huolto- ja asumisriitoihin aiemmin. Työssä käytetty oikeustapausaineisto käsittää 500 huolto- ja asumisriitaa Suomen jokaisesta viidestä hovioikeudesta vuosien 2000 ja 2016 väliseltä ajalta. Aineisto on rajattu riitoihin, joissa äiti ja isä ovat eri mieltä lasten asumisesta ja mahdollisesti myös huollosta. Aineiston laajuus ja ilmiön vähäinen mallinnushistoria tekevät aineistosta kansainvälisesti ainutlaatuisen. Tiedot riidoista on poimittu hovioikeuksien ratkaisuista sekä niiden tausta-asiakirjoista. Kaikista riidoista on poimittu tieto myös vastaavasta käräjäoikeuden ratkaisusta, josta äiti tai isä on valittanut hovioikeuteen. Äidit ja isät ovat valittajina yhtä usein, mutta äidit saavat isiä hieman useammin vaatimuksiansa vastaavia päätöksiä hovioikeudessa. Äidit vaativat lasten yksinhuoltoa useammin kuin isät. Aineistossa on paljon muuttujia, joiden yhdistelmistä pyritään muodostamaan mahdollisimman hyviä malleja erilaisiin lähtökohtiin. Selittäjiä tarkastellaan aluksi yhden selittäjän malleilla, mutta varsinaiset analyysit perustuvat usean selittäjän malleihin, jotka muodostetaan yhden selittäjän mallien pohjalta. Usean selittäjän mallien valitsemisessa käytetään tavanomaisia tilastollisten mallien mallinvalintamenetelmiä. Lopputuloksena saadaan kolme mallia, joista ensimmäisen on tarkoitus löytää keskeiset oikeuden päätöstä selittävät tekijät. Toinen malli pyrkii ennustamaan uuden riidan lopputuloksen ja kolmas ennustamaan lopputuloksen riidassa, josta on käräjäoikeuden päätös. Kolmas malli pyrkii myös löytämään tekijät, jotka parhaiten selittävät käräjäoikeuden päätöksen muuttumista. Lasten vakiintunut asuinpaikka, sosiaaliviranomaisten esittämä suositus ja oikeuden todeksi katsoma väkivalta-, päihteidenkäyttö- tai mielenterveyssyytös toisesta osapuolesta ovat merkityksellisimmät oikeuden päätöstä selittävät tekijät. Näiden tekijöiden merkityksen suuruus ei näytä riippuvan siitä, onko kyseessä äiti vai isä. Lasten vakiintunut asuinpaikka on useammin äidin kuin isän luona, mikä selittää sitä, miksi äidit voittavat riitoja hieman useammin kuin isät. Mitä suurempi vanhempien välinen ikäero on, sitä paremmat ovat nuoremman osapuolen voittomahdollisuudet. Mikäli vanhin lapsi on alle kouluikäinen, niin äidin voittomahdollisuudet paranevat. Mikäli äidin avustaja oikeudessa on mies tai mikäli äiti on työtön, niin isän voittomahdollisuudet paranevat. Hovioikeus muuttaa käräjäoikeuden päätöstä asumisriidoissa noin 14 prosentissa valituksista. Koska käräjä- ja hovioikeuden päätökset ovat hyvin vahvasti kytkeytyneet toisiinsa, niin päätöksen muuttumiselle jää vain vähän selittäviä tekijöitä. Tällaisia ovat edeltävä huolto- ja asumistilanne ja vanhempien välinen ikäero. Järjestysregressiomalli toimii ilmiön mallintamisessa melko hyvin ja erityisesti skaala- ja nominaaliselittäjien käyttäminen osoittautuu toimivaksi tavaksi huomioida osapuolten vaatimukset. Mallien ennusteet ovat lupaavia, vaikka ennustekykyä on arvioitu vain aineistolla, jolla malli on sovitettu. Aineiston suuren muuttujamäärän vuoksi kaikkia yhteyksiä on vaikea havaita, minkä vuoksi aineistosta olisi mielenkiintoista tehdä vielä useita lisätarkasteluja.
  • Näsänen, Jurkka (2004)
    Tässä opinnäytteessä käsitellään sensuroituneiden elinaikahavaintojen tilastollista analyysia uskottavuuspäättelyn keinoin. Havaintojen oletetaan olevan samanaikaisesti alttiina useamman kuin yhden toistensa kanssa kilpailevan kuolemansyyn vaikutukselle, jolloin muodostettaessa havainnoille mallia on muiden kuolemansyiden vaikutus huomioitava. Kuolemansyiden elinaikojen yhteisjakaumasta oletetaan mallin määrittelemiseksi kuolemansyiden elinaikojen välinen keskinäinen riippumattomuus, jolloin kokonaiskuolleisuuden aiheuttama kuolemanvaara saadaan esitettyä additiivisena hajoitelmana kuolemansyiden aiheuttamista kuolemanvaaroista. Elinajan jakauman hasardifunktiopohjaisina malleina käsitellään erilaisia versioita hasardifunktion paloittaiseen vakioisuuteen perustuvista malleista, kuten elinaikojen eksponentiaalista mallia sekä kuolemantapausten lukumäärän binomiaalisen ja Poisson-jakauma oletukseen perustuvia malleja. Kursorisesti esitetään näiden mallien laajennuksia, joissa paloittaisen vakioisuuden vaatimusta voidaan lieventää. Elinajan mallien yhteydessä tarkastellaan mahdollisuutta vakioida malleista saatuja hasardifunktion estimaatteja sekä regressiomallituksen keinoin suhteellisten hasardien mallin avulla että käyttäen mallin ulkopuolista tietolähdettä hasardien vakiointiin kovariaattien luokkien määräämissä ositteissa väestötilastojen avulla. Käytetyt mallit sijoittuvat käytetyt uskottavuusfunktio pohjaisen estimointi menetelmänsä perusteella samaan luokkaan parametristen mallien kanssa, kuitenkin porrasfunktiomuoto mahdollistaa mallien käytön joustavina ei-parametrisia malleja läheisesti muistuttavalla tavalla. Mallien estimointiin käytetään standardia uskottavuusfunktio pohjaista asymptoottiseen normaalisuuteen perustuvaa menetelmää, jonka ratkaisuun käytetään tavanomaisia iteratiivisia numeerisia menetelmiä. Opinnäytteen data-analyysi esimerkkeinä käytetyt mallit on estimoitu käyttäen R-ohjelmaa. Käytetyistä malleista esitetään estimointiin tarvittavat kaavat, käsitellään uskottavuusratkaisuun toimivuutta sekä tehdään yritys tarkastella estimoitujen mallien validisuutta regressiodiagnostiikan keinoin. Esimerkkeinä tarkastellaan kahta mallia ihomelanooman aiheuttamalle syöpäkuolleisuudelle Suomessa vuosina 1975-1995: Absoluuttisia kuolemanvaaroja estimoiva kilpailevien kuolemansyiden malli antaa hajotelman ihomelanooma aiheuttamaan ja muista syistä aiheutuneeseen kuolleisuuteen, kun taas väestötilastojen avulla vakioidun kokonaiskuolleisuuden malli antaa estimaatteja ihomelanooma altistuksen aiheuttamasta ylikuolleisuudesta suhteessa vertailuväestössä vallitsevaan kokonaiskuolleisuuteen. Tarkastellut mallit näyttävät olevan esimerkkien valossa varsin käyttökelpoisia.
  • Rissanen, Olavi (Helsingfors universitet, 2017)
    Tutkimuksessa selvitetään, millainen kokemus konfirmaatiomessu on ja mitkä tekijät koetaan merkityksellisinä konfirmaatiomessussa. Lisäksi arvioidaan niitä tekijöitä, jotka vaikuttavat konfirmaatiossa koettuun merkityksellisyyteen sekä siihen, missä määrin konfirmaatiokävijä arvioi uskonsa tai suhteensa kirkkoon vahvistuneen. Tutkimuksen aineistona on kesällä 2015 toteutettu kysely, johon osallistuivat Helsingin ja Vantaan alueen kirkoissa konfirmaatiomessuihin osallistuneet. Tutkimus on määrällinen ja aineistoa analysoidaan tilastollisin menetelmin. Tutkimuksessa oli mukana 25 eri konfirmaatiomessua ja yhteensä 1345 vastaajaa. Tutkimuksessa osoitetaan konfirmaatiomessun olevan myönteinen ja merkityksellinen kokemus suurimmalle osalle siihen osallistuvista. Tutkittujen messujen välillä oli pieniä eroja sen suhteen, kuinka tyytyväisiä messuun oltiin. Sen sijaan muiden tutkittujen kysymysten välillä ei ollut eroja sen suhteen, missä messussa vastaaja oli lomakkeensa täyttänyt. Tämä osoittaa, että Suomen evankelis-luterilaisen kirkon konfirmaatiomessut ovat niin tasalaatuisia, etteivät mahdolliset laatuerot aiheuta havaittavia eroja messukokemuksessa. Mahdolliset erot messukokemuksissa johtuvat muista kuin laatueroista messujen välillä. Vastaajat pitivät konfirmaatiomessussa merkityksellisimpinä sellaisia asioita, joihin liittyy sosiaalisuutta. Esimerkiksi nuorten läsnäolo ja yleinen tunnelma messussa koettiin erittäin merkityksellisinä. Sen sijaan jumalanpalvelukselle tyypilliset elementit kuten saarna tai rippi oli koettu varsin vähän merkityksellisenä. Konfirmaatiomessun ja jumalanpalvelusten yleensä merkityksellisenä pitämiseen vaikuttivat varsin erilaiset asiat. Sosiaaliset tekijät vaikuttavat eniten konfirmaation kokonaismerkityksellisyyden kokemiseen, kun taas jumalanpalvelusten yleensä merkityksellisenä pitämiseen vaikuttavat vastaajan kirkkomyönteisyys ja jumalanpalvelukseen tyypillisesti liittyvien elementtien kuten saarnan ja ripin arvostaminen. Vaikka konfirmaatiomessukokemukseen vaikuttavat eniten sosiaaliset tekijät ja niiden merkityksellisenä pitäminen, sosiaaliset tekijät eivät vaikuta jumalanpalvelusten yleensä merkityksellisenä pitämiseen, jos ihminen ei muuten arvosta kirkkoa tai jumalanpalvelusta. Sosiaaliset tekijät eivät edesauta myöskään uskon tai kirkkosuhteen vahvistumista. Tämän tutkimuksen sekä aikaisempien tutkimustulosten perusteella näyttää siltä, että varhaisella uskontokasvatuksella on suurin vaikutus siihen, millaisena jumalanpalvelukset kokee, eikä myöhemmillä kokemuksilla ole enää vastaavaa vaikutusta.
  • Huotelin, Vesa (Helsingfors universitet, 2017)
    Tutkielmassa syvennytään lapsen huoltoa ja tapaamisoikeutta koskevaan täytäntöönpanoon kvantitatiivisin menetelmin. Analyysiä varten on kerätty 632 tapauksen aineisto kahdeksasta eri käräjäoikeudesta vuosilta 2000–2015. Tutkielma voidaan jakaa kahteen osaan: aineiston ja tilannekuvan esittelyyn sekä logistiseen regressiomalliin, joka ennustaa hakijan voittotodennäköisyyttä tapaamisoikeuden täytäntöönpanoasiassa. Tapaamisoikeuden täytäntöönpanossa hakijoiden sukupuolijakauma vastaa etävanhempien sukupuolijakaumaa väestössä. Hakija syyttää vastaajaa yleensä manipuloinnista tai vieraannuttamisesta, vastaajan syytökset liittyvät päihteisiin, väkivaltaan ja seksuaaliseen hyväksikäyttöön. Oikeus ei ota kantaa syytöksiin, ellei asian ratkaiseminen sitä edellytä. Suurin osa tapauksista päättyy sovintoon. Yli puolet riitaisista tapauksista päättyy uhkasakon asettamiseen, noutoa käytetään hyvin harvoin. Oikeudenkäyntikulut jaetaan usein tasan osapuolten kesken, vaikka asiassa olisi selvä voittaja. Joka neljäs tapaamisoikeutta koskeva täytäntöönpanoasia uusiutuu, ja lopputulos voi seuraavissa käsittelyissä muuttua kokonaan. Huoltoa koskeva aineisto on pieni, ja sitä käsitellään tutkielmassa vain lyhyesti. Isät hakevat huollon täytäntöönpanoa suhteellisesti useammin kuin äidit. Hakija syyttää vastaajaa kaappauksesta ja vieraannuttamisesta, vastaajan syytökset liittyvät useimmiten päihteisiin ja väkivallan uhkaan. Kaksi kolmesta tapauksesta päättyy lasten palauttamiseen sovinnollisesti tai täytäntöönpanon kautta. Noutoa käytetään täytäntöönpanon tehosteena usein. Logistinen regressiomalli rakennetaan pienin poikkeuksin taaksepäin askeltavalla muuttujavalinnalla. Parametrien estimoinnissa käytetään Firthin muokattua uskottavuusfunktiota, jolla kontrolloidaan pienen havaintomäärän aiheuttamaa harhaa approksimatiivisesti. Muuttujia karsitaan uskottavuusosamäärätestin sekä Akaiken informaatiokriteerin perusteella. Malli ennustaa kolme neljästä aineiston lopputuloksesta oikein. Sen erottelukykyä arvioidaan ROC-käyrällä ja yhteensopivuutta aineiston kanssa Hosmer-Lemeshow-testillä. Niiden perusteella mallia voidaan pitää käyttökelpoisena. Logistisen regressioanalyysin tulokset ovat: Toteen näytetty vastaajan syytös sekä varttuneen lapsen haluttomuus tavata hakijaa laskevat hakijan voittotodennäköisyyttä merkittävästi. Voittotodennäköisyyttä heikentävät myös vastaajan myönteinen suhtautuminen tapaamisiin sekä se, että hakija on äiti. Äidin menestymistä tutkitaan myös kahdella muulla logistisella regressiomallilla: Äidin hakema täytäntöönpanoasia päättyy sovintoon todennäköisemmin kuin isän, mutta sovinnot päättyvät hakijan kannalta yhtä hyvin tai huonosti riippumatta tämän sukupuolesta.
  • Mäntymaa, Petteri (Helsingin yliopisto, 2020)
    Terveyden ja hyvinvoinnin laitoksen FinLapset-rekisteri tutkii lasten ja nuorten ylipainon ja lihavuuden yleisyyttä Suomessa. Tiedot perustuvat valtakunnalliseen rekisteriaineistoon neuvola- ja kouluterveydenhuollon paino- ja pituusmittauksista. Tuloksia on raportoitu poikkileikkausasetelmassa raportointivuosittain, mutta aineisto mahdollistaa myös samoilta yksilöiltä kertyneiden toistettujen mittausten analyysin pitkittäistutkimusasetelmassa. Tutkielmassa arvioimme lineaaristen sekamallien soveltuvuutta FinLapset-rekisteriaineistosta muodostetun pitkittäisaineiston analyysivälineeksi. Teoriaosassa esittelemme lineaaristen sekamallien keskeiset ominaisuudet ja estimointimenetelmät sekä tarkastelemme hyviä mallinarvioinnin käytäntöjä. Soveltavassa vaiheessa sovitamme aineistoon kaksitasoisen lineaarisen sekamallin, jolla tutkimme lasten ja nuorten painoindeksin yhteyttä ikään ja biologiseen sukupuoleen sekä arvioimme mallin kykyä selittää aineistossa esiintyvää yksilökohtaista ja yksilöiden välistä painoindeksin vaihtelua. Mallin suoriutumista tarkastellaan erityisesti rekisteriaineiston analyysin muodostamien haasteiden näkökulmasta. Lineaariset sekamallit muodostavat luontevan analyysikehikon FinLapset-rekisteriaineiston kaltaisen pitkittäisaineiston analyysiin. Yksinään iän kiinteä populaatiovaikutus, yhdessä yksilö- ja ikäkohtaisten satunnaisvaikutusten kanssa selittää mallin vaihtelua erittäin hyvin. Painoindeksin ja iän yhteyden lineaarisuusoletus jää kuitenkin epäilyksen alaiseksi ja yksilökohtaisten residuaalien autokorrelaatio sekä varianssin heteroskedastisuus osoittautuvat merkittäviksi haasteiksi. Rekisteriaineistolle tyypilliset ominaisuudet, kuten passiivisesta kertymistavasta seuraava populaatiokehikon täsmällisen määrittelyn puute ja aineistoa tuottavien prosessien tuntemattomuus vaikeuttavat mallin estimaatteihin liittyvien epävarmuustekijöiden arviointia. Suuresta havaintomäärästä seuraten estimaattien keskivirheet ovat hyvin pieniä, mikä antaa virheellisen kuvan mallin hyvyydestä, vaikka estimaatteihin liittyvä harha jää osin tunnistamatta. Tutkielmassa näytetään, että lineaarisille sekamallelle löytyy joustavia laajennoksia, joilla osa tutkielmassa esitetyn mallin haasteista on mahdollista ylittää. Osa laajennetuista malleista ovat suoraan yhteensopivia tutkielman frekventistisen lähestymistavan kanssa, mutta useat vaihtoehtoiset menetelmät suosivat bayesiläistä ajattelutapaa. Myös näkökulmia rekisteriaineiston epävarmuuslähteiden tunnistamiseksi ja edustavuuden parantamiseksi punnitaan.
  • Kangas, Tuukka (Helsingin yliopisto, 2018)
    Maistereiden uraseuranta on vuonna 2005 alkanut kyselytutkimus. Kyselytutkimuksen kohdejoukkona ovat viisi vuotta aikaisemmin valmistuneet ylemmän korkeakoulututkinnon tai päättyvän alemman korkeakoulututkinnon suorittaneet henkilöt. Kyselyt toteutetaan kokonaistutkimuksena. Kyselytutkimusta koordinoi yliopistojen työelämä- ja urapalveluiden Aarresaari-verkosto. Helsingin yliopisto on ollut mukana kyselytutkimuksissa alusta saakka. Vuonna 2017 maisteriuraseurantoja esitettiin osaksi yliopistojen rahoitusmallia. Tämä on lisännyt tutkittavan aineiston kiinnostavuutta sekä valtakunnallisesti että yliopiston sisällä. Koska kyselytutkimus on muuttunut vuosien varrella, tässä tutkielmassa on keskitytty vain vuonna 2007, 2009 ja 2011 valmistuneiden aineistoihin. Nämä kyselyt on toteutettu vuosina 2012, 2014 ja 2016. Tutkittava kyselytutkimus on suhteellisen laaja ja sisältää useita muuttujia. Tutkielmassa on hyödynnetty binääristä ja multinomiaalista logistista regressiota. Vastemuuttujaksi valittiin kuinka tyytyväinen vastaaja oli kokonaisuudessaan suorittamaansa tutkintoonsa työuran kannalta. Tämä on myös yksi muuttujista, jota on esitetty osaksi rahoitusmallia. Muita muuttujia hyödynnettiin selittävinä muuttujina. Lopputuloksena saatiin kaksi tilastollista mallia, joista ensimmäinen oli kolmen aineiston yhdistelmästä tehty malli ja toinen vuonna 2011 valmistuneiden aineistosta tehty malli. Mallit analysoitiin hyödyntäen eri tapoja, kuten ROC-käyriä ja Hosmer-Lemeshow’n testiä. Yhdistelmäaineiston perusteella tutkintotyytyväisyyden todennäköisyyttä kasvattaa muun muassa, jos pystyy hyödyntämään oppimaansa nykyisessä työssään, työpaikan vaativuustaso vastaa koulutusta ja ei ole kohdannut työttömyyttä valmistumisen jälkeen. Samoin jos vastaaja kokee, että yliopisto-opiskelu on kehittänyt hyvin esimerkiksi teoreettista osaamista, opetustaitoja ja tietoteknisiä taitoja, niin tämä parantaa tyytyväisyyden todennäköisyyttä. Yhdistelmäaineiston perusteella sellaiset henkilöt, jotka pätevöityvät suoraan johonkin ammattiin, kuten lääkäriksi, lakimieheksi tai farmaseutiksi, ovat hieman todennäköisemmin tyytyväisempiä. Vastaavasti vuonna 2011 valmistuneiden aineistosta ns. generalistialoilta valmistuneet henkilöt ovat hieman tyytyväisempiä suhteessa professioaloihin. Uusin aineisto tukee suurelta osin yhdistelmäaineiston havaintoja, mutta sen perusteella merkittävämpiä muuttujia tyytyväisyyden todennäköisyyden selittämiselle ovat riittävien valmiuksien saaminen työelämään ja että työnantaja arvostaa tutkintoa. Näitä kahta muuttujaa ei ole käytettävissä aikaisemmissa aineistoissa.
  • Sund, Reijo (Helsingin yliopisto, 2008)
    The resources of health systems are limited. There is a need for information concerning the performance of the health system for the purposes of decision-making. This study is about utilization of administrative registers in the context of health system performance evaluation. In order to address this issue, a multidisciplinary methodological framework for register-based data analysis is defined. Because the fixed structure of register-based data indirectly determines constraints on the theoretical constructs, it is essential to elaborate the whole analytic process with respect to the data. The fundamental methodological concepts and theories are synthesized into a data sensitive approach which helps to understand and overcome the problems that are likely to be encountered during a register-based data analyzing process. A pragmatically useful health system performance monitoring should produce valid information about the volume of the problems, about the use of services and about the effectiveness of provided services. A conceptual model for hip fracture performance assessment is constructed and the validity of Finnish registers as a data source for the purposes of performance assessment of hip fracture treatment is confirmed. Solutions to several pragmatic problems related to the development of a register-based hip fracture incidence surveillance system are proposed. The monitoring of effectiveness of treatment is shown to be possible in terms of care episodes. Finally, an example on the justification of a more detailed performance indicator to be used in the profiling of providers is given. In conclusion, it is possible to produce useful and valid information on health system performance by using Finnish register-based data. However, that seems to be far more complicated than is typically assumed. The perspectives given in this study introduce a necessary basis for further work and help in the routine implementation of a hip fracture monitoring system in Finland.
  • Gupta, Rashi (Helsingin yliopisto, 2009)
    Microarrays are high throughput biological assays that allow the screening of thousands of genes for their expression. The main idea behind microarrays is to compute for each gene a unique signal that is directly proportional to the quantity of mRNA that was hybridized on the chip. A large number of steps and errors associated with each step make the generated expression signal noisy. As a result, microarray data need to be carefully pre-processed before their analysis can be assumed to lead to reliable and biologically relevant conclusions. This thesis focuses on developing methods for improving gene signal and further utilizing this improved signal for higher level analysis. To achieve this, first, approaches for designing microarray experiments using various optimality criteria, considering both biological and technical replicates, are described. A carefully designed experiment leads to signal with low noise, as the effect of unwanted variations is minimized and the precision of the estimates of the parameters of interest are maximized. Second, a system for improving the gene signal by using three scans at varying scanner sensitivities is developed. A novel Bayesian latent intensity model is then applied on these three sets of expression values, corresponding to the three scans, to estimate the suitably calibrated true signal of genes. Third, a novel image segmentation approach that segregates the fluorescent signal from the undesired noise is developed using an additional dye, SYBR green RNA II. This technique helped in identifying signal only with respect to the hybridized DNA, and signal corresponding to dust, scratch, spilling of dye, and other noises, are avoided. Fourth, an integrated statistical model is developed, where signal correction, systematic array effects, dye effects, and differential expression, are modelled jointly as opposed to a sequential application of several methods of analysis. The methods described in here have been tested only for cDNA microarrays, but can also, with some modifications, be applied to other high-throughput technologies. Keywords: High-throughput technology, microarray, cDNA, multiple scans, Bayesian hierarchical models, image analysis, experimental design, MCMC, WinBUGS.
  • Miettinen, Jarkko (Helsingin yliopisto, 2009)
    This thesis addresses modeling of financial time series, especially stock market returns and daily price ranges. Modeling data of this kind can be approached with so-called multiplicative error models (MEM). These models nest several well known time series models such as GARCH, ACD and CARR models. They are able to capture many well established features of financial time series including volatility clustering and leptokurtosis. In contrast to these phenomena, different kinds of asymmetries have received relatively little attention in the existing literature. In this thesis asymmetries arise from various sources. They are observed in both conditional and unconditional distributions, for variables with non-negative values and for variables that have values on the real line. In the multivariate context asymmetries can be observed in the marginal distributions as well as in the relationships of the variables modeled. New methods for all these cases are proposed. Chapter 2 considers GARCH models and modeling of returns of two stock market indices. The chapter introduces the so-called generalized hyperbolic (GH) GARCH model to account for asymmetries in both conditional and unconditional distribution. In particular, two special cases of the GARCH-GH model which describe the data most accurately are proposed. They are found to improve the fit of the model when compared to symmetric GARCH models. The advantages of accounting for asymmetries are also observed through Value-at-Risk applications. Both theoretical and empirical contributions are provided in Chapter 3 of the thesis. In this chapter the so-called mixture conditional autoregressive range (MCARR) model is introduced, examined and applied to daily price ranges of the Hang Seng Index. The conditions for the strict and weak stationarity of the model as well as an expression for the autocorrelation function are obtained by writing the MCARR model as a first order autoregressive process with random coefficients. The chapter also introduces inverse gamma (IG) distribution to CARR models. The advantages of CARR-IG and MCARR-IG specifications over conventional CARR models are found in the empirical application both in- and out-of-sample. Chapter 4 discusses the simultaneous modeling of absolute returns and daily price ranges. In this part of the thesis a vector multiplicative error model (VMEM) with asymmetric Gumbel copula is found to provide substantial benefits over the existing VMEM models based on elliptical copulas. The proposed specification is able to capture the highly asymmetric dependence of the modeled variables thereby improving the performance of the model considerably. The economic significance of the results obtained is established when the information content of the volatility forecasts derived is examined.