Browsing by Subject "tilastotiede"

Sort by: Order: Results:

Now showing items 21-33 of 33
  • Kuusela, Vesa (Helsingin yliopisto, 2011)
    Modern sample surveys started to spread after statistician at the U.S. Bureau of the Census in the 1940s had developed a sampling design for the Current Population Survey (CPS). A significant factor was also that digital computers became available for statisticians. In the beginning of 1950s, the theory was documented in textbooks on survey sampling. This thesis is about the development of the statistical inference for sample surveys. For the first time the idea of statistical inference was enunciated by a French scientist, P. S. Laplace. In 1781, he published a plan for a partial investigation in which he determined the sample size needed to reach the desired accuracy in estimation. The plan was based on Laplace s Principle of Inverse Probability and on his derivation of the Central Limit Theorem. They were published in a memoir in 1774 which is one of the origins of statistical inference. Laplace s inference model was based on Bernoulli trials and binominal probabilities. He assumed that populations were changing constantly. It was depicted by assuming a priori distributions for parameters. Laplace s inference model dominated statistical thinking for a century. Sample selection in Laplace s investigations was purposive. In 1894 in the International Statistical Institute meeting, Norwegian Anders Kiaer presented the idea of the Representative Method to draw samples. Its idea was that the sample would be a miniature of the population. It is still prevailing. The virtues of random sampling were known but practical problems of sample selection and data collection hindered its use. Arhtur Bowley realized the potentials of Kiaer s method and in the beginning of the 20th century carried out several surveys in the UK. He also developed the theory of statistical inference for finite populations. It was based on Laplace s inference model. R. A. Fisher contributions in the 1920 s constitute a watershed in the statistical science He revolutionized the theory of statistics. In addition, he introduced a new statistical inference model which is still the prevailing paradigm. The essential idea is to draw repeatedly samples from the same population and the assumption that population parameters are constants. Fisher s theory did not include a priori probabilities. Jerzy Neyman adopted Fisher s inference model and applied it to finite populations with the difference that Neyman s inference model does not include any assumptions of the distributions of the study variables. Applying Fisher s fiducial argument he developed the theory for confidence intervals. Neyman s last contribution to survey sampling presented a theory for double sampling. This gave the central idea for statisticians at the U.S. Census Bureau to develop the complex survey design for the CPS. Important criterion was to have a method in which the costs of data collection were acceptable, and which provided approximately equal interviewer workloads, besides sufficient accuracy in estimation.
  • Kämäräinen, Emma (Helsingin yliopisto, 2018)
    Tässä työssä aiheena oleva mobiilipuhelimien käyttöiän mallintaminen ja ennustaminen on osa teleoperaattori DNA Oyj:n laitemallia. Laitemalliin kuuluu asiakkaan seuraavan puhelinlaitteen ostoajanhetken, hinnan ja valmistajan ennustaminen. Ostoajanhetken arviointi on olennainen tieto yrityksille, jotka myyvät mobiililaitteita, sillä sen avulla voidaan ajoittaa laitesuositteluja sekä tehdä asiakkaalle ajankohtaisia toimenpiteitä. Käyttöiän mallintamista varten haettiin aineisto DNA Oyj:n tietokannasta, jota jatkojalostettiin mallinnukseen sopivaksi. Aineistoa kertyy koko ajan lisää, jonka takia mallinnuksessa käytetty aineisto muuttuu jopa päivittäin. Laitemallia ajetaan DNA Oyj:n tuotantoympäristössä ja sen tulokset ovat operatiivisessa käytössä. Tutkielmani alussa esittelen mallinnuksessa käytettävän satunnainen metsä-algoritmin, joka on päätöspuiden kokoelmaan perustuva menetelmä. Ensin kerron hieman algoritmin historiasta ja sen teoreettisesta taustasta. Algoritmin toiminnan ymmärtämiseksi esittelen myös muita koneoppimisen menetelmiä, jotka ovat oleellinen osa algoritmia. Satunnainen metsä- menetelmässä on monia hyviä ominaisuuksia, joita täsmennän teoriaosuuden yhteydessä. Menetelmän suorituksen yhteydessä voidaan esimerkiksi laskea selittäville muuttujille niiden tärkeys mallinnuksessa. Algoritmin teorian esittelyn jälkeen määrittelen vielä muutamia metriikoita, joita käytän mallinnusvaiheessa tulosten analysoinnissa ja validoinnissa. Seuraavaksi kuvailen työssä käytetyn aineiston. Aineiston hakuja tehtiin kaksi, joista toinen on mallin koulutusaineistoa varten ja toinen on aineisto, jolle lopulliset ennusteet muodostetaan. Aineistoissa on paljon muuttujia, joten esittelen ne kahdessa osassa. Ensin kerron laitteeseen liittyvät ominaisuudet ja sen jälkeen asiakkaaseen liittyvät tiedot. Laitteiden ostopäivätiedoista saatiin selville mallinnuksen selitettävä muuttuja, puhelimen käyttöaika, joka luokiteltiin kolmen kuukauden tarkkuudella. Ostopäivän lisäksi puhelinlaitteesta on tiedossa monenlaisia teknisiä ominaisuuksia, muun muassa laitteen käyttöjärjestelmä sekä 4G- kyvykkyys. Asiakkaan tiedoista mallinnuksessa käytettiin demografisia tietoja, kuten sukupuolta ja ikää. Lisäksi hyödynnettiin asiakkaan ilmoittaman osoitetiedon perustella määriteltyä laajakaistasaatavuutta ja mobiilidatan käyttöön liittyviä muuttujia. Aineiston esittelyn jälkeen kerron varsinaisesta mallinnuksesta. Mallinnuksen yhteydessä tutkin eri parametrien vaikutusta ennustetuloksiin. Optimaalisten parametrien avulla luotiin luokkaennusteet mobiililaitteiden käyttöiälle. Eräs satunnainen metsä- algoritmin ominaisuus liittyy siihen, että menetelmän suorituksen yhteydessä pystytään arvioimaan sen tuottamia tuloksia aineistolle, jota menetelmä ei ole käyttänyt kyseisellä suorituskerralla mallin rakentamiseen. Arviointiin käytettiin luokittelumenetelmiin sopivia metriikoita, joiden perusteella algoritmi ennustaa onnistuneesti suuren osan aineistosta. Parametrien määrittämisen ja mallin kouluttamisen jälkeen muodostettiin luokat ennusteaineistolle. Lopullisten ennusteiden paikkansapitävyyttä ei voida arvioida, ennen kuin asiakas ostaa uuden puhelimen. Joissakin tapauksissa vaihtoon voi mennä useampi vuosi. Päätän opinnäytetyöni arvioimalla menetelmän toimivuutta ja pohtimalla laitevaihdon taustalla olevia muuttujia. Vaikka työssä oli käytössä rikas aineisto, puhelinvaihdon luultavasti yleisintä syytä eli laitteen vikatilannetta ei ollut saatavilla työn tekohetkellä. Laitevaihdon syihin perustuvan aineiston lisääminen parantaisi mallinnuksen tuloksia entisestään. Lopussa pohdin myös tuotannossa ajettavan, päivittäin muuttuvan mallinnuksen haasteita. Eräs mallinnuksen tuloksiin vaikuttava tekijä on muuttumattomat parametrit, jotka aineiston muuttuessa eivät välttämättä tuota enää parhaita ennustetuloksia. Laitemallia aiotaan kehittää entistä paremmaksi DNA Oyj:llä.
  • Perttola, Juha-Pekka (2006)
    Tutkimuksen tarkoituksena on määritellä, toteuttaa ja dokumentoida ohjelmistopaketti mitta-asteikon yleisen reliabiliteettiestimaattorin eli Tarkkosen rho:n laskemiseen. Toteutuksessa käytetyt ohjelmistotyökalut ovat tilasto-ohjelmisto SAS sekä matemaattisen tekstin kirjoittamiseen ja julkaisuun käytetty LaTeX. SAS2LaTeX yhdistää näiden ohjelmistojen vahvimmat puolet ja mahdollistaa ohjelmistopaketin eli kompendiumin määrittelyn muodossa, jossa Gentleman ja Temple Lang ovat sen esittäneet. Toteutettu reliabiliteettikompendiumi on julkaistu myös tutkielman tekijän ylläpitämällä SAS2LaTeX-verkkosivulla. Reliabiliteetin estimointiin käytetään edelleen erityisesti psykometriikan alueella usein mittaria, jonka on osoitettu toimivan monissa tilanteissa huonosti. Yksi syistä vallitsevalle tilanteelle on, että tilasto-ohjelmistot eivät vielä sisällä laskentamenetelmiä ,joiden voidaan näyttää toimivan paremmin. Tutkimuksessa toteutettu reliabiliteettikompendiumi perustuu Tarkkosen väitöskirjassa esitettyyn yleiseen reliabiliteettiestimaattoriin. Tarkkosen rho:ta on edelleen tutkittu Vehkalahden väitöskirjassa sekä Tarkkosen ja Vehkalahden julkaisuissa. Tutkimuksessa on toteutettu esimerkkejä liittyen Tarkkosen rho:n ja Cronbachin alfa:n ominaisuuksiin, sekä niiden laskennan toteutukseen SAS IML -matriisitulkilla. Myös monet työssä käsitellyistä symbolisista matriiseista on kirjoitettu havainnolliseen muotoon hyödyntäen SAS2LaTeX-järjestelmän ladontaominaisuuksia. Kirjoitettujen esimerkkien valossa voidaan käytettyjen lähteiden lailla todeta, että Cronbachin alfa:n antamat tulokset saattavat johtaa reliabiliteetin määritelmän mielessä järjettömiin tuloksiin. Kirjoittamalla laskennassa käytetyt matriisit auki on pyritty havainnollistamaan, kuinka nämä järjettömät tulokset käytännössä muodostuvat. Toteutetun reliabiliteettikompendiumin käyttö ja sen tuloksena tuottama reliabiliteettiraportti on kuvattu työhön liitettyjen malliohjelmien ja esimerkkitulosteiden avulla. Kompendiumin sisäisen toiminnan kuvaus ja laskennan eteneminen on esitetty tutkielmassa Nassi-Shneiderman -kaaviona. Laskennassa käytetyt SAS-ohjelmat ja -makrot on esitetty työn liitteinä. Työssä on kuvattu myös kaksi vaihtoehtoista tapaa yleisen reliabiliteettilaskennan toteutukseen: SAS IML -moduuli ja SAS-makro. Tutkimuksen johtopäätöksinä todetaan, että Cronbachin alfa kannattaa ajan myötä korvata Tarkkosen rho:lla ja että tutkimuksessa toteutetut ohjelmat helpottavat SAS-ohjelmistoa käyttäviä soveltajia rho:n laskemisessa. Lisäksi toivotaan tieteellisten tulosten julkaisemisen kompendiumeina yleistyvän, sillä tämä takaisi nykyistä helpomman tulosten toistettavuuden.
  • Vehkala, Minna (Helsingin yliopisto, 2016)
    This thesis introduces statistical analysis methods for two types of bacterial data: metabolic data produced by phenotype microarray technology, and genomic data produced by sequencing technologies. As both technologies produce vast amounts of data, as well as have special features, there is a need for bioinformatics tools that adequately process and analyze the information produced. Similar to all biomolecular data analyses, the interplay between biological components poses an additional challenge to the method development. A specific complication, regarding the metabolic data, is the lack of larger quantities of replicates due to the high expenses of performing the experiments. In terms of the sequence data, genome-wide analysis tools are desired, since such methods have not yet been widely developed for bacteria, even though they exist for eukaryotic genetics. The thesis briefly reviews the current methods, and introduces new approaches tackling the above mentioned problems.
  • Sirén, Jukka (Helsingin yliopisto, 2012)
    Population genetics has enjoyed a long and rich tradition of applying mathematical, computational and statistical methods. The connection between these fields has deepened in the last few decades as advances in genotyping technology have led to an exponential increase in the amount of genetic data allowing fundamental questions involving the nature of genetic variation to be asked. The massive quantities of data have necessitated the development of new mathematical and statistical models along with computational techniques to provide answers to these questions. In this work we address two problems in population genetics by constructing statistical models and analyzing their performance with simulated and real data. The first one concerns the identification of genetic structure in natural populations from molecular data, which is an important aspect in many fields of applied science, including genetic association mapping and conservation biology. We frame it as a problem of clustering and classification and utilize background information to achieve a higher accuracy, when the genetic data is sparse. We develop a computationally efficient method for taking advantage of geographical sampling locations of the individuals. The method is based on the assumption that the spatial structure of the populations correlates strongly with the genetic structure, which has been proven reasonable for human populations. In the assignment of individuals into known populations, we also show how improvements in the efficiency of the inference can be obtained by considering all of the individuals jointly. The result is derived in the context of classification, which is major field of study in machine learning and statistics, making it applicable in a wide range of situations outside population genetics. The other problem involves the reconstruction of evolutionary processes that have resulted in the structure present in current populations. The genetic variation between populations is caused to large extent by genetic drift, which corresponds to random fluctuations in the distribution of a genetic type due to demographic processes. Depending on the genetic marker under study, mutation has only a minor or even negligible role, in contrast with traditional phylogenetic methods, where mutational processes dominate as the time scales are longer. We follow the change in the relative frequencies of different genetic types in populations by deriving approximations to widely used models in population genetics. The direct modeling of population level properties allows the method to be applied data sets harboring thousands of samples, as demonstrated by the analysis of global population structure of Streptococcus pneumoniae.
  • Numminen, Elina (Helsingin yliopisto, 2015)
    A central goal in science is to learn from observations about the process that generated the observations. The principles of statistical inference describe a systematic approach for such learning, in which prior information, knowledge about the underlying mechanisms and the observed data can be combined. In practice, lack of mathematical tractability, huge amounts of missing information, and the sensitivity of the conclusions on the assumptions made represent genuine challenges in the theoretically sound statistical framework. Statistical studies on the dynamics of infectious diseases easily face all these problems at once. In the thesis we present case-studies in which the datasets on bacterial diversity, mostly on Streptococcus pneumoniae, described in terms of either genotypes or serotypic strains, are analysed. By utilizing the machinery of modern computational statistics different strategies for inference are formulated, which aim to take the special characteristics of each of the studied problem into account, while overcoming the previously mentioned challenges in computational studies. For instance, an approximate Bayesian computation scheme is formulated for analysing cross-sectional strain prevalence data and an importance sampling scheme for analysing transmission trees with a priori known complex features. The obtained results unravel the mechanisms of seasonality in pneumococcal carriage, consequences of the host population structure and the nature of within-host competition between the bacterial strains.
  • Nyberg, Henri (Helsingin yliopisto, 2010)
    This thesis studies binary time series models and their applications in empirical macroeconomics and finance. In addition to previously suggested models, new dynamic extensions are proposed to the static probit model commonly used in the previous literature. In particular, we are interested in probit models with an autoregressive model structure. In Chapter 2, the main objective is to compare the predictive performance of the static and dynamic probit models in forecasting the U.S. and German business cycle recession periods. Financial variables, such as interest rates and stock market returns, are used as predictive variables. The empirical results suggest that the recession periods are predictable and dynamic probit models, especially models with the autoregressive structure, outperform the static model. Chapter 3 proposes a Lagrange Multiplier (LM) test for the usefulness of the autoregressive structure of the probit model. The finite sample properties of the LM test are considered with simulation experiments. Results indicate that the two alternative LM test statistics have reasonable size and power in large samples. In small samples, a parametric bootstrap method is suggested to obtain approximately correct size. In Chapter 4, the predictive power of dynamic probit models in predicting the direction of stock market returns are examined. The novel idea is to use recession forecast (see Chapter 2) as a predictor of the stock return sign. The evidence suggests that the signs of the U.S. excess stock returns over the risk-free return are predictable both in and out of sample. The new "error correction" probit model yields the best forecasts and it also outperforms other predictive models, such as ARMAX models, in terms of statistical and economic goodness-of-fit measures. Chapter 5 generalizes the analysis of univariate models considered in Chapters 2 4 to the case of a bivariate model. A new bivariate autoregressive probit model is applied to predict the current state of the U.S. business cycle and growth rate cycle periods. Evidence of predictability of both cycle indicators is obtained and the bivariate model is found to outperform the univariate models in terms of predictive power.
  • Laaksonen, Seppo (Helsingin yliopisto, Valtiotieteellinen tiedekunta, 2018)
    Valtiotieteellisen tiedekunnan julkaisuja 78 (2018)
    Tämä on Suomen Kulttuurirahaston Eminentia-apurahan suomenkielinen kontribuutio mikä on varsin omakohtainen ja subjektiivisiakin kokemuksia ja näkemyksiä sisältävä mutta toivottavasti riittävän objektiivinen sikäli, että siitä voisi lukija ammentaa hyödyllisiä historiallisia ja tulevaisuuden näkemyksiä. Kirja on kaksiosainen: · Ensimmäinen osa antaa tiivistelmän omasta urastani surveymetodiikan alueella, sisältäen myös paljon nimiä joiden kanssa olen runsaan kolmen vuosikymmenen kanssa ollut tekemisissä. Aloitan silti ihan lapsuudestani. Oman käsitykseni mukaan suomalainen surveytutkimus nousi melko tyhjästä hyvään kukoistukseen alkaen 1980-luvun loppupuolella mutta on viime vuosina ollut valitettavasti hiipumaan päin. Lukija voi yrittää kumota tätä väitettä, jos löytää hyviä argumentteja. Itse tietysti toivon, että tilanne mieluummin vaan paranee, ainakin tilapäisen laskusuhdanteen jälkeen. · Toinen osa ottaa esille seitsemän tärkeäksi kokemaani teemaa missä käydään kunkin teeman historiaa ja tulkintaa omakohtaisesti läpi. Niissä eritellään saavutuksia, joita on syntynyt yhteisissä hankkeissa eri puolilla, pääosin Euroopassa. Nämä sopivat myös opetus-ja tutkimusmateriaaliksi, erityisesti jos käyttää hyväksi kuhunkin liittyviä viitteitä. Molemmissa osissa on kertomuksia kohtaamisista kollegojen ja muiden alojen tutkijoiden kanssa, melko leppoisaan tyyliin. Loppuosassa on liite mikä sisältää luettelon merkittävimmistä julkaisuistani näiden vuosien aikana, jaoteltuna 18 aihealueeseen.
  • Cajanus, Werner (Suomen metsätieteellinen seura, 1914)
    Acta Forestalia Fennica
  • Ilvessalo, Yrjö (Suomen metsätieteellinen seura, 1922)
  • Tervola, Jussi (2010)
    Tutkimuksen tavoite on kartoittaa Kelan sairaanhoitokorvausten alueellista vaihtelua selittäviä tekijöitä kuntatasolla tilastotieteellisin menetelmin. Erityistarkastelussa on kuntien terveydenhuoltomenojen ja Kelan sairaanhoitokorvausten yhteys. Sairaanhoitokorvauksilla tarkoitetaan tässä yhteydessä yksityisen terveydenhuollon korvauksia, joita ovat lääkärin ja hammaslääkärin palkkiosta sekä tutkimuksesta ja hoidosta maksettavat korvaukset. Lääke- ja matkakorvaukset jätetään sairaanhoitokorvauksista tutkimuksen ulkopuolelle. Tutkimuksen aineisto koostuu Kelan ja Tilastokeskuksen kuntakohtaisista tilastotiedoista vuodelta 2007. Muuttujia on pyritty keräämään niin, että kaikki olennaiset kunnan yhteiskuntarakennetta kuvaavat indikaattorit olisivat edustettuina. Tilastollinen regressiomallinnus on keskeinen osa tämän opinnäytetyön menetelmiä. Regressiomallinnuksessa käytetään sekä PNS-menetelmää että robustia MM-menetelmää. Lisäksi aineistossa olevaa puuttuvuutta käsitellään imputoimalla ja aineiston informaatiota tiivistetään pääkomponenttianalyysilla. Rekisterimuuttujien yhdistelyssä ja aineiston muodostamisessa käytetään hyväksi rekisteriaineistojen käsittelyn tilastotiedettä. Yksittäisistä muuttujista asukkaiden tulotaso ja korkeakoulutettujen osuus, jotka korreloivat vahvasti keskenään, selittävät eniten yksityisen terveydenhuollon sairaanhoitokorvausten kunnittaisesta vaihtelusta. Kun tulotaso tai korkeakoulutettujen osuus on mallissa, työttömyysaste selittää eniten jäljelle jäänyttä vaihtelua. Suurimman selitysasteen saa tulotason ja työttömyysasteen malli, joka selittää yli 50 % yksityisen terveydenhuollon sairaanhoitokorvausten vaihtelusta. Jäännösten perusteella mallin sopivuudessa on kuitenkin alueellista vaihtelua. Kun malliin lisätään alueulottuvuuden sisältäviä yhdysvaikutustermejä, sen selitysaste kasvaa lähes 70 %:iin. Kun mallit muodostetaan Kelan vakuutusalueiden tasolla, selittävimpiin malleihin valikoituu eri vakuutusalueissa eri muuttujia. Etelä-Suomen selittävillä malleilla on huomattavasti suurempi selitysaste kuin muissa vakuutusalueissa. Yksi syy tähän voi olla, että Etelä-Suomessa yksityisten terveyspalvelujen tarjonta on vahvemmin kiinnittynyt kunnan ominaisuuksiin, mikä taas on tulosta alueen palvelujen käyttökulttuurin ominaispiirteistä ja markkinoiden muodostumisesta. Yksityisen terveydenhuollon sairaanhoitokorvauksilla on melko vahva negatiivinen korrelaatio sekä kuntien terveydenhuoltomenojen että ikä- ja sukupuolivakioidun sairastavuusindeksin kanssa. Nämä yhteydet kuitenkin häviävät, kun esimerkiksi kunnan asukkaiden tulotaso vakioidaan. Koska vakuutusalueittaisessa tarkastelussa selittävimpiin malleihin valikoituneet muuttujat vaihtelivat paljon, voidaan päätellä, että tämän tutkimuksen perusteella ei ole olemassa valtakunnallista pelkkien päävaikutusten mallia, joka selittäisi yksityisen terveydenhuollon sairaanhoitokorvausten vaihtelua tyydyttävästi. Alueulottuvuus on syytä ottaa huomioon joko yhdysvaikutustermein tai muodostamalla mallit kokonaan pienemmässä aluekehyksessä. Mitä suuremmat kunnallisen terveydenhuollon kustannukset olivat vuonna 2007, sitä vähemmän kunnassa käytettiin yksityisen terveydenhuollon palveluja (ts. myönnettiin sairaanhoitokorvauksia). Samoin mitä suurempi kunnan ikä- ja sukupuolivakioitu sairastavuusindeksi oli, sitä vähemmän siellä käytettiin yksityisen terveydenhuollon palveluja. Yhteydet kuitenkin selittyvät välillisesti esimerkiksi kunnan asukkaiden tulotasolla: sairastavimmissa kunnissa on keskimäärin pienempi tulotaso. Tutkimuksen tuloksia voidaan käyttää sairausvakuutusjärjestelmän arvioinnin ja kehittämisen tukena. Tutkimus voi myös luoda pohjaa yleisemmän terveystaloustieteellisen teorian kehittämiselle.