Browsing by Issue Date

Sort by: Order: Results:

Now showing items 1-20 of 920
  • Söderlund, Ilkka J I (2016)
    I avhandlingen konstrueras de naturliga talen utgående från mängdlärans axiom. Från de naturliga talen och deras egenskaper som bevisas i arbetet fortskrider avhandlingen steg för steg till de hela talen, de rationella talen och de reella talen. Bland de första stegen visar vi att det existerar en induktiv mängd som satisfierar Peanos axiom. Sedan bevisas rekursionsteoremet som används för att bygga upp aritmetiken för de naturliga talen. Genom ekvivalensrelationen $\langle m,n \rangle \sim \langle p,q \rangle \Leftrightarrow m+q=p+n$ konstrueras de hela talen som ekvivalensklasserna $\Z = (\N \times \N)/\sim$. I arbetet bevisas grundläggande aritmetiska regler för de hela talen samt gällande ordningsrelationen. På ett liknande sätt konstrueras mängden av rationella tal från mängden av hela tal med hjälp av ekvivalensrelationen $\langle a,b\rangle \sim \langle c,d\rangle \Leftrightarrow ad=bc$ där $a,b,c,d \in \Z$. I arbetet bevisas att mängden av rationella tal bildar en kropp. Även talföljder och därmed även fundamentalföljder studeras som en förberedelse för konstruktionen av de reella talen. I det sista steget, där vi konstruerar de ekvivalensrelationer som bygger upp de reella talen, så används en annan metod till skillnad från de hittills algebraiska metoderna. Ekvivalensrelationen baserar sig på fundamentalföljder i mängden av rationella tal. Vi definierar en ekvivalensrelation $(x_n)\sim (y_n)$ i mängden av fundamentalföljder $F_\Q$ genom gränsvärdet $L(x_n-y_n)=0$. Förutom att egenskaper för räkneoperationerna och ordningsrelationen bevisas, så visas även att mängden av de reella talen är fullständig. Som avslutning till avhandlingen granskas isomorfier mellan de konstruerade mängderna och icke-numrerbarheten av mängden reella tal.
  • Lu, Yao (2016)
    This thesis is an investigation of unsupervised learning for image classification. The state-of-the-art image classification method is Convolutional Neural Network (CNN), which is a purely supervised learning method. We argue that despite of the triumph of supervised learning, unsupervised learning is still important and compatible with supervised learning. For example, in the situation where some classes have no training data at all, so called zero-shot learning task, unsupervised learning can leverage supervised learning to classify the images of unseen classes. We proposed a new zero-shot learning method based on CNN and several unsupervised learning algorithms. Our method achieves the state-of-the-art results on the largest public available labelled image dataset, ImageNet fall2011.
  • Salminen, Samu (2016)
    Tämä Pro Gradu -tutkielma käsittelee työntekijän eläkelain (TyEL) nykyisin käytössä olevan Gompertz-kuolevuusmallin sopivuutta kuvaamaan TyEL:n selektiä kuolevuutta vanhuuseläkeliikkeessä. Tutkielman tarkoitus on nostaa esiin nykymallin ongelmakohdat ja esitellä Gompertz-kuolevuusmallin laajennus, joka ainakin osin korjaisi nykymallin puutteita pysymällä kuitenkin järjestelmätekniseltä kannalta tarpeeksi yksinkertaisena. Keskeisiksi teemoiksi tutkielmassa nousee elämänvaravakuutuksen yleisen teorian sekä työntekijän eläkelain vanhuuseläkeliikkeen vakuutustekniikan lisäksi toteutuvan kuolevuuden ennustaminen Lee-Miller-mallin sovelluksella ja laajennetun Gompertz-kuolevuusmallin parametrien estimointi havaintoaineistosta. Havaintoaineistona tutkielmassa käytetään sekä Tilastokeskuksen väestökuolevuuksia että TyEL:n riskiperusteanalyysien mukaisia toteutuneita rahapainotettuja kuolevuuksia. Ennustemalli on laadittu käyttäen R- ja Excel-ohjelmistoja (ml. VBA). Kuolevuusmallin laajennusta on kehitetty työeläkejärjestelmässä vuodesta 2014 laskuperusteasiain neuvottelukunnan alaisessa kuolevuusperustejaoksessa, jonka sihteerinä tutkielman kirjoittaja on toiminut vuosina 2014 ja 2015. Puheenjohtajayhtiönä kyseisinä vuosina on toiminut Keskinäinen Työeläkevakuutusyhtiö Elo ja puheenjohtajana tämän tutkielman toinen tarkastaja Tuomas Hakkarainen. Kuolevuusperustejaoksessa on edustus jokaisen työeläkeyhtiön lisäksi eläkekassoilla ja eläkesäätiöillä, Sosiaali- ja terveysministeriöllä, Eläketurvakeskuksella sekä Kevalla (julkisen puolen eläkkeet). Kuolevuusmallin valinnalla ja osuvuudella on merkitystä vanhuuseläkeliikkeessä, sillä se määrää pääoma-arvokertoimet, joilla varaudutaan vastaisten ja alkaneiden vanhuuseläkkeiden suorituksiin tulevaisuudessa. Tutkielmassa esitelty uusi kuolevuusmalli otetaan käyttöön vuoden 2017 eläkeuudistuksen yhteydessä, eli ensimmäisen kerran vanhuuseläkeliikkeen vanhuuseläkevastuut lasketaan sen mukaisina vuoden 2016 lopussa. Vanhuuseläkemaksu määräytyy uuden mallin mukaisesti vuodesta 2017 alkaen.
  • Rautiainen, Mikko (2016)
    The genomes of all animals, plants and fungi are organized into chromosomes, which contain a sequence of the four nucleotides A, T, C and G. Chromosomes are further arranged into homologous groups, where two or more chromosomes are almost exact copies of each others. Species whose homologous groups contain pairs of chromosomes, such as humans, are called diploid. Species with more than two chromosomes in a homologous group are called polyploid. DNA sequencing technologies do not read an entire chromosome from end to end. Instead, the results of DNA sequencing are small sequences called reads or fragments. Due to the difficulty of assembling the full genome from reads, a reference genome is not always available for a species. For this reason, reference-free algorithms which do not use a reference genome are useful for poorly understood genomes. A common variation between the chromosomes in a homologous group is the single nucleotide polymorhpism (SNP), where the sequences differ by exactly one nucleotide at a location. Genomes are sometimes represented as a consensus sequence and a list of SNPs, without information about which variants of a SNP belong in which chromosome. This discards useful information about the genome. Identification of variant compositions aims to correct this. A variant composition is an assignment of the variants in a SNP to the chromosomes. Identification of variant compositions is closely related to haplotype assembly, which aims to solve the sequences of an organism’s chromosomes, and variant detection, which aims to solve the sequences of a population of bacterial strains and their frequencies in the population. This thesis extends an existing exact algorithm for haplotype assembly of diploid species (Patterson et al, 2014) to the reference-free, polyploid case. Since haplotype assembly is NP-hard, the algorithm’s time complexity is exponential to the maximum coverage of the input. Coverage means the number of reads which cover a position in the genome. Lowering the coverage of the input is necessary. Since the algorithm does not use a reference genome, the reads must be ordered in some other way. Ordering reads is an NP-hard problem and the technique of matrix banding (Junttila, PhD thesis, 2011) is used to approxiately order the reads to lower coverage. Some heuristics are also presented for merging reads. Experiments with simulated data show that the algorithm’s accuracy is promising. The source code of the implementation and scripts for running the experiments are available online at https://github.com/maickrau/haplotyper.
  • Tuominen, Pekko (2016)
    Forecasting of solar power energy production would benefit from accurate sky condition predictions since the presence of clouds is a primary variable effecting the amount of radiation reaching the ground. Unfortunately the spatial and temporal resolution of often used satellite images and numerical weather prediction models can be too small for local, intra-hour estimations. Instead, digital sky images taken from the ground are used as data in this thesis. The two main building blocks needed to make sky condition forecasts are reliable cloud segmentation and cloud movement detection. The cloud segmentation problem is solved using neural networks, a double exposure imaging scheme, automatic sun locationing and a novel method to study the circumsolar region directly without the use of a sun occluder. Two different methods are studied for motion detection. Namely, a block matching method using cross-correlation as the similarity measure and the Lukas-Kanade method. The results chapter shows how neural networks overcome many of the situations labelled as difficult for other methods in the literature. Also, results by the two motion detection methods are presented and analysed. The use of neural networks and the Lukas-Kanade method show much promise for forming the cornerstone of local, intra-hour sky condition now-casting and prediction.
  • Althermeler, Nicole (2016)
    Metagenomics promises to shed light on the functioning of microbial communities and their sur- rounding ecosystem. In metagenomic studies the genomic sequences of a collection of microorgan- isms are directly extracted from a specific environment. Up to 99% of microbes cannot be cultivated in the lab; thus, traditional analysis techniques have very limited applicability in this challenging setting. By directly extracting the sequences from the environment, metagenomic studies circum- vents this dilemma. Thus, metagenomics has become a powerful tool in the analysis of the diversity and metabolic capability of environmental microbes. However, metagenomic studies have challenges of their own. In this thesis we investigate several aspects of metagenomic data set analysis, focusing on means of (1) verifying adequacy of taxonomic unit and enzyme representation and annotation in the sam- ple, (2) highlighting similarities between samples by principal component analysis, (3) visualizing metabolic pathways with manually drawn metabolic maps from the Kyoto Encyclopedia of Genes and Genomes, and (4) estimating taxonomic distributions of pathways with a novel strategy. A case study of deep bedrock groundwater metagenomic samples will illustrate these methods. Water samples from boreholes, up to 2500 meter deep, of two different sites of Finland display the applicability and limitations of aforementioned methods. In addition publicly available metage- nomic and genomic samples serve as baseline references. Our analysis resulted in a taxonomic and metabolic characterization of the samples. We were able to adequately retrieve and annotate the metabolic content based on the deep bedrock samples. The visualization provided a tool for further investigation. The microbial community distribution could be characterized on higher levels of abstraction. Previously suspected similarities to fungi or archaea were not verified. First promising results were observed with the novel strategy in estimating taxonomic distributions of pathways. Further results can be found at: http://www.cs.helsinki.fi/group/urenzyme/deepfun/
  • Lei, Jinmin (2016)
    Despite of the efficiency brought by the high-throughput technology in detecting protein-protein interactions, different wet-lab methods still pose different pitfalls. As a complementary strategy, dry-lab methods are less expensive and have an advantage of data fusion that overcomes the biases of individual data sources. This thesis explores the indicative features and the effect of a graph model in the protein-protein interaction prediction task as well as the capability of the multiple kernel learning algorithms in improving the prediction performance.Different kernels are applied in accordance with different features. We integrate 14 global and 10 graph features respectively in the SVM framework via different kernel methods, and then compare the prediction performances of different features. When applying the graph features, we represent individual proteins as labeled graphs and then apply three different graph kernels to explore which one can best capture the relationships between proteins. For merging heterogeneous data, we apply different multiple kernel learning algorithms and explore their capabilities in improving the prediction accuracy. We formulate the prediction of protein-protein interactions as a binary classification problem and in the SVM framework, we need to reconstruct the kernel which measures the similarity between protein pairs from the kernel which measures the similarity between proteins. For this goal, we employ three different pairwise kernels in the SVM framework and explore their effects in capturing the relationships between protein pairs. We perform experiments on 896 Saccharomyces Cerevisiae (baker's yeast) proteins and report the prediction performances of the three pairwise kernels on 10 graph and 14 global features, as well as the prediction results of different multiple kernel learning algorithms. Our experimental results reveal that the overall prediction performance achieved by the 10 graph features applied to the proposed graph model is better than that achieved by the 14 protein global features, and that among all multiple kernel learning methods, the alignf wins over the others in the protein-protein interaction prediction task. Our methods detect the interacting proteins at a high level. Based on this work, low-level models can be devised to detect the exact interacting spots between proteins.
  • Kajosaari, Anna (2016)
    This master's thesis discusses the applicability of the concept of new-build gentrification in the context of Helsinki. The aim is to offer new ways to structure the framework of socio-economic change in Helsinki through this theoretical perspective and to explore the suitability of the concept of new-build gentrification in a context where the construction of new housing is under strict municipal regulations. The conceptual understanding of gentrification has expanded since the term's coinage, and has been enlarged to encompass a variety of new actors, causalities and both physical and social outcomes. New-build gentrification on its behalf is one of the manifestations of the current, third-wave gentrification. Over the upcoming years Helsinki is expected to face growth varying from moderate to rapid increase of the population. The last decade has been characterized by the planning of extensive residential areas in the immediate vicinity of the Helsinki CBD and the seaside due to the relocation of inner city cargo shipping. Accompanied with characteristics of local housing policy and existing housing stock, these developments form the framework where the prerequisites for the existence of new-build gentrification are discussed. The empirical part of this thesis concentrates on exploring the socio-economic and demographic structure of the resident base of Helsinki’s new-build housing areas. The main research method is a GIS- analysis based on the appliance of the YKR Database by SYKE and the Grid Database by Statistics Finland. Besides the quantitative analysis, the existence of new-build gentrification in Helsinki is discussed in the context of general argumentation for the phenomenon's applicability by the critical gentrification research perspective. The results of the study lead to the conclusion, that new-build gentrification does not occur in the chosen case areas as the process described in international case-studies suggest, but several of the characteristics of the phenomenon are however present in the local housing policies, housing market and development of new residential areas. In Helsinki the regulation of the tenure structure concerning the new-build housing stock has led to a situation, where the difference between new-build housing developments' and the surrounding areas' socio-economic status varies between the inner-and outer parts of the city. These results bear close resemblance to the outcomes of recent Western European studies highlighting the importance of comprehensive understanding of the local context in the contemporary gentrification research. The development of new-build housing areas in Helsinki is to some extent in line with international trends, but the specificities of national and local policy practices have led to distinct socio-cultural outcomes. The results support the notion that the concept of new-build gentrification becomes purposeful when accompanied with a more nuanced and comprehensive understanding of the local processes of urban change.
  • Heikkinen, Nina (2016)
    Kiteisessä kallioperässä havaitut suolaiset pohjavedet voivat sisältää huomattavia määriä kaasuja, joista yleisimpiä ovat metaani, typpi, vety ja helium. Maan pinnan olosuhteissa kaasut ovat yleensä melko niukkaliukoisia veteen. Syvemmällä maan kuoressa paine, lämpötila ja veden suolaisuus vaikuttavat huomattavasti kaasujen liukoisuuteen. Kaasut käyttäytyvät hyvin eri tavalla ollessaan liukoisena veteen kuin vapaana kaasuna, joten kaasujen olomuodon selvittäminen erilaisissa olosuhteissa on oleellista tutkittaessa esimerkiksi kaasujen ja pohjaveden alkuperää ja viipymisaikaa. Kaasujen liukoisuutta veteen erilaisissa olosuhteissa tarkastellaan fysikaalisen kemian, semiempiiristen mallien ja kaasujen liukoisuusaineistojen avulla. Metaanille, typelle, vedylle ja heliumille määritetään maksimiliukoisuuksia 273-323 K:n lämpötilassa, 1-300 barin paineessa ja 0-2 molaalisille suolaisuuksille. Paineen vaikutus kaasujen liukoisuuteen on merkittävin. Paineen kasvaessa myös kaasujen liukoisuus veteen kasvaa. Suolaisuuden kasvu vaikuttaa yleensä kaasujen liukoisuutta alentavasti, samoin kuin lämpötilan nousu. Kaasujen liukoisuustarkastelua sovelletaan myös Outokummun 2,5 km syvän kairareiän olosuhteisiin ja vuosina 2011-2012 kairaireiästä otetuista näytteistä havaittuihin kaasupitoisuuksiin. Tarkastellut kaasunäytteet on otettu paineellisilla menetelmillä, jotka pystyvät säilyttämään näytteenottosyvyydellä vallitsevan paineen näytteissä siihen asti, kunnes kaasut vapautetaan analyysiä varten laboratoriossa. Tämä mahdollistaa kaasujen luotettavan kvantitatiivisen tarkastelun, kun saadaan tarkkaa tietoa kaasumääristä näytesyvyyksillä. Outokummun syväkairareiässä esiintyy eniten metaania ja typpeä, syvimmissä osissa vety on hallitseva kaasu. Suurimmat kaasupitoisuudet on havaittu 970 metrin syvyydessä. Erillisiä kaasufaaseja ei näyttäisi esiintyvän näytesyvyyksillä (180, 500, 970, 1470, 1820, 2350 ja 2480 metriä), eli kaikki kaasut näyttäisivät olevan liuenneena veteen. Näytesyvyydellä 180 metriä kaasujen osapaineiden summa (n. 13 bar) on melko lähellä tällä syvyydellä vallitsevaa hydrostaattista painetta (n. 18 bar), joten ollaan mahdollisesti lähellä tilannetta, jossa kaasuja irtoaa liuoksesta kaasumaiseen muotoon. Todennäköisesti n. 150 metrissä ja sen yläpuolella kaasuja erkanee liuoksesta. Syvemmällä kairareiässä paineen vaikutus kaasujen liukoisuuteen on niin merkittävä, että kaasut ovat todennäköisesti liuenneena veteen 180 metrin alapuolella.
  • Aksola, Aleksanteri Mitja (2016)
    Tutkimusaineisto koostuu 21 dolomiitti näytteestä, jotka on otettu Kalvbergetin muodostumasta Länsi-Ruotsista. Näytteistä analysoitiin δ13C- ja δ18O-arvot, sekä hivenaineiden ja REE-alkuaineiden koostumus. Analysointiin käytettiin IRMS, XRD ja ICP-MS menetelmiä. Hivenainekoostumuksen perusteella selvitettiin, edustavatko isotooppiarvot primääristä mariinista arvoa vai ovatko arvot muuttuneet metamorfoosissa. REE-koostumuksesta pääteltiin, minkälaisissa olosuhteissa näytteet ovat muodostuneet. Keskeisin kysymys oli selvittää, edustavatko näytteet neoproterotsooisia kattokarbonaatteja sekä miten näytteet sijoittuvat globaalille neoproterotsooiselle δ13C-kuvaajalle. Näytteet olivat käyneet läpi vihreäliuske- amfiboliittifasieksen metamorfoosin. Näytteet oli otettu eripuolilta Kalvbergetin muodostumaa, n. 30 m matkalta. Paksuudeltaan näytesarja edusti 15 m koko Kalvbergetin muodostumasta. Näytteet K1-K6 olivat muuttuneet voimakkaammin kuin näytteet K7-K21. Tämä ilmeni hivenainekoostumuksessa, jossa havaittiin näytteiden K1-K6 kohdalla reaktioita silikaatin kanssa. Nämä reaktiot ovat muovanneet myös kyseisten näytteiden δ13C- ja δ18O-arvoja negatiivisemmiksi. Näytteiden K1-K6 δ13C-arvot vaihtelivat välillä -3,07 … -3,34‰ ja δ18O-arvot välillä -12,04 ... -12,59‰. Näytteillä K7-K21 δ13C-arvot vaihtelivat välillä +2,07 ... +4,42‰ ja δ18O-arvot välillä -5,94 ... -8,59‰. Metamorfoosin aiheuttaman muuttumisen perusteella näytteet K1-K6 hylättiin isotooppitarkastelusta. Näytteiden K7-K21 isotooppiarvot edustivat paremmin mariinisia arvoja. δ18O arvossa oli merkkejä muuttumisesta fluidien kanssa, mutta δ13C arvot edustivat lähes muuttumattomia arvoja. REE-koostumuksessa havaittiin merkkejä detritaalisesta aineksesta silikaattirikkaimmissa näytteissä. Tästä syystä osa näytteistä hylättiin, sillä näytteiden REE pitoisuudet lähestyivät PAAS pitoisuuksia eivätkä edustaneet alkuperäisiä mariinisia arvoja. Silikaattien aiheuttaman kontaminaation vuoksi myös näytteet, joiden karbonaattipitoisuus oli <85% hylättiin, jolloin REE-alkuaineiden tarkasteluun jäljelle jäivät näytteet K7, K11-K16, K18 sekä K20. Kyseisten näytteiden REE-kuvaajat lähestyivät modernien merivesien kuvaajia, joskin ne olivat köyhtyneet HREE alkuaineista verrattuna moderneihin merivesiin. Näytteiden Ce/Ce* anomalian perusteella näytteet olivat muodostuneet anoksisessa ympäristössä. Ce/Ce* anomalian keskiarvo oli 0,94, joka poikkeaa paljon nykyisistä oksisista merivesistä. Jäljelle jääneet näytteet K7-K21 sijoittuivat globaalilla δ13C kuvaajalla Marinoan ja Sturtian jääkausien väliin, n. 700 - 650 Ma ajalle. Tämän perusteella näytteet eivät siis edusta neoproterotsooisille jääkausille tyypillisiä kattokarbonaatteja, vaan ne ovat meressä jääkausien välisenä aikana muodostuneita karbonaattisedimenttejä.
  • Saikko, Paul (2015)
    Real-world optimization problems, such as those found in logistics and bioinformatics, are often NP-hard. Maximum satisfiability (MaxSAT) provides a framework within which many such problems can be efficiently represented. MaxHS is a recent exact algorithm for MaxSAT. It is a hybrid approach that uses a SAT solver to compute unsatisfiable cores and an integer programming (IP) solver to compute minimum-cost hitting sets for the found cores. This thesis analyzes and extends the MaxHS algorithm. To enable this, the algorithm is re-implemented from scratch using the C++ programming language. The resulting MaxSAT solver LMHS recently gained top positions at an international evaluation of MaxSAT solvers. This work looks into various aspects of the MaxHS algorithm and its applications. The impact of different IP solvers on the MaxHS algorithm and the behavior induced by different strategies of postponing IP solver calls is examined. New methods of enhancing the computation of unsatisfiable cores in MaxHS are examined. Fast core extraction through parallelization by partitioning soft clauses is explored. A modification of the final conflict analysis procedure of a SAT solver is used to generate additional cores without additional SAT solver invocations. The use of additional constraint propagation procedures in the SAT solver used by MaxHS is investigated. As a case study, acyclicity constraint propagation is implemented and its effectiveness for bounded treewidth Bayesian network structure learning using MaxSAT is evaluated. The extension of MaxHS to the labeled MaxSAT framework, which allows for more efficient use of preprocessing techniques and group MaxSAT encodings in MaxHS, is discussed. The re-implementation of the MaxHS algorithm, LMHS, also enables incrementality in efficiently adding constraints to a MaxSAT instance during the solving process. As a case study, this incrementality is used in solving subproblems with MaxSAT within GOBNILP, a tool for finding optimal Bayesian network structures.
  • Toivonen, Juhani (2015)
    Computation offloading can be used to leverage the resources of nearby computers to ease the computational burden of mobile devices. Cloudlets are an approach, where the client’s tasks are executed inside a virtual machine (VM) on a nearby computing element, while the client orchestrates the deployment of the VM and the remote execution in it. Mobile devices tend to move, and while moving between networks, their address is prone to change. Should a user bring their device close to a better performing Cloudlet host, migration of the original Cloudlet VM might also be desired, but their address is then prone to change as well. Communication with Cloudlets relies on the TCP/IP networking stack, which resolves address changes by terminating connections, and this seriously impairs the usefulness of Cloudlets in presence of mobility events. We surveyed a number of mobility management protocols, and decided to focus on Host Identity Protocol (HIP). We ported an implementation, HIP for Linux (HIPL), to the Android operating system, and assessed its performance by benchmarking throughput and delay for connection recovery during network migration scenarios. We found that as long as the HIPL hipfw-module, and especially the Local Scope Iden- tifier (LSI) support was not used, the implementation performed adequately in terms of throughput. On the average, the connection recovery delays were tolerable, with an average recovery time of about 8 seconds when roaming between networks. We also found that with highly optimized VM synthesis methods, the recovery time of 8 seconds alone does not make live migration favourable over synthesizing a new VM. We found HIP to be an adequate protocol to support both client mobility and server migration with Cloudlets. Our survey suggests that HIP avoids some of the limitations found in competing protocols. We also found that the HIPL implementation could benefit from architectural changes, for improving the performance of the LSI support.
  • Sotala, Kaj (2015)
    This thesis describes the development of “Bayes Academy”, an educational game which aims to teach an understanding of Bayesian networks. A Bayesian network is a directed acyclic graph describing a joint probability distribution function over n random variables, where each node in the graph represents a random variable. To find a way to turn this subject into an interesting game, this work draws on the theoretical background of meaningful play. Among other requirements, actions in the game need to affect the game experience not only on the immediate moment, but also during later points in the game. This is accomplished by structuring the game as a series of minigames where observing the value of a variable consumes “energy points”, a resource whose use the player needs to optimize as the pool of points is shared across individual minigames. The goal of the game is to maximize the amount of “experience points” earned by minimizing the uncertainty in the networks that are presented to the player, which in turn requires a basic understanding of Bayesian networks. The game was empirically tested on online volunteers who were asked to fill a survey measuring their understanding of Bayesian networks both before and after playing the game. Players demonstrated an increased understanding of Bayesian networks after playing the game, in a manner that suggested a successful transfer of learning from the game to a more general context. The learning benefits were gained despite the players generally not finding the game particularly fun. ACM Computing Classification System (CCS): • Applied computing - Computer games • Applied computing - Interactive learning environments • Mathematics of computing - Bayesian networks
  • Sakaya, Joseph Hosanna (2015)
    Traditional natural language processing has been shown to have excessive reliance on human- annotated corpora. However, the recent successes of machine translation and speech recognition, ascribed to the effective use of the increasingly availability of web-scale data in the wild, has given momentum to a re-surging interest in attempting to model natural language with simple statistical models, such as the n-gram model, that are easily scaled. Indeed, words and word combinations provide all the representational machinery one needs for solving many natural language tasks. The degree of semantic similarity between two words is a function of the similarity of the linguistic contexts in which they appear. Word representations are mathematical objects, often vectors, that capture syntactic and semantic properties of a word. This results in words that are semantic cognates having similar word representations, an important property that we will widely use. We claim that word representations provide a superb framework for unsupervised learning on unlabelled data by compactly representing the distributional properties of words. The current state-of-the-art word representation adopts the skip-gram model to train shallow neural networks and presents negative sampling, an idea borrowed from Noise Contrastive Estimation, as an efficient method of inducing embeddings. An alternative approach contends that the inherent multi-contextual nature of words entails a more Canonical Correlation Analysis-like approach for best results. In this thesis we develop the first fully Bayesian model to induce word embeddings. The prominent contributions of this thesis are: 1. A crystallisation of the best practices from previous literature on word embeddings and matrix factorisation into a single hierarchical Bayesian model. 2. A scalable matrix factorisation technique for structured sparse data. 3. Representation of the latent dimensions as continuous Gaussian densities instead of as point estimates. We analyse a corpus of 170 million tokens and learn for each word form a vectorial representation based on the 8 surrounding context words with a negative sampling rate of 2 per token. We would like to stress that while we certainly hope to beat the state-of-the-art, our primary goal is to develop a stochastic and scalable Bayesian model. We evaluate the quality of the word embeddings against the word analogy tasks as well as other such tasks as word similarity and chunking. We demonstrate competitive performance on standard benchmarks.
  • Kauppinen, Matti (2015)
    Tämä työ tutkii, miten terveystaltio- ja potilaskertomusjärjestelmien yhteentoimivuutta voidaan parantaa. Tutkielman lähtökohtana on, että nykyisillä standardeilla ja terveystiedon mallinnusratkaisuilla on mahdollista edistää yhteentoimivuutta sen eri tasoilla. Työssä tutustutaan terveystaltio- ja potilaskertomusjärjestelmiin ja näiden järjestelmien välisessä yhteentoimivuudessa esiintyviin ongelmiin. Yhteentoimivuuteen liittyvien ongelmien ratkaisemiseksi käydään läpi erilaisia standardeja ja mallinnusratkaisuja, joiden käyttöä arvioidaan järjestelmien välisessä tiedonvaihdossa. Tutkielman tuloksena on, että nykyisillä standardeilla ja mallinnusratkaisuilla voidaan parantaa terveystaltio- ja potilaskertomusjärjestelmien perustason, rakenteellisen tason ja osittaisen semanttisen tason yhteentoimivuutta.
  • Noordsij, Dennis (2015)
    Application of machine learning methods for the analysis of functional neuroimaging signals, or "brain-function decoding", is a highly interesting approach for better understanding of human brain functions. Recently, Kauppi et al. presented a brain-function decoder based on a novel feature extraction approach using spectral LDA, which allows both high classification accuracy (the authors used sparse logistic regression) and novel neuroscientific interpretation of the MEG signals. In this thesis we evaluate the performance of their brain-function decoder with additional classification and input feature scaling methods, providing possible additional options for their spectrospatial decoding toolbox SpeDeBox. We find the performance of their brain-function decoder to validate the potential of high frequency rhythmic neural activity analysis, and find that the logistic regression classifier provides the highest classification accuracy when compared to the other methods. We did not find additional benefits in applying prior input feature scaling or reduction methods.
  • Hore, Sayantan (2015)
    Content Based Image Retrieval or CBIR systems have become the state of the art image retrieval technique over the past few years. They showed commendable retrieval performance over traditional annotation based retrieval. CBIR systems use relevance feedback as input query. CBIR systems developed so far did not put much effort to come up with suitable user interfaces for accepting relevance feedback efficiently i.e. by putting less cognitive load to the user and providing a higher amount of exploration in a limited amount of time. In this study we propose a new interface "FutureView" which allows peeking into the future providing access to more images in less time than traditional interfaces. This idea helps the user to choose more appropriate images without getting diverted. We used Gaussian process upper confidence bound algorithm for recommending images. We successfully compared this algorithm with Random and Exploitation algorithms with positive results.
  • Eklund, Krister (2015)
    Ilmaisia tyypin I virtualisointijärjestelmiä on tarjolla useita. Tässä työssä vertaillaan Hyper-V Server-, Proxmox VE-, vSphere Hypervisor- ja XenServer-järjestelmiä keskenään laitteistovaatimusten, asennuksen, hallittavuuden, ominaisuuksien, resurssien seurannan, suorituskyvyn, varmuuskopioinnin ja päivittämisen suhteen. Järjestelmät asennettiin vuorotellen testikokoonpanolle, jolla arviointi tehtiin. Eroja löytyi kaikilta osa-alueilta. Tulokset koottiin taulukkoon, josta keskinäinen vertailu on yksinkertaista.
  • Heinonen, Riku (2015)
    Tämän tutkielman tarkoituksena on tutkia, kuinka kohteena olevasta ohjelmistokehitysprojektista voidaan havainnoida hukkaa, minkä tyyppisiä ja kuinka paljon mitäkin hukkaa havaitaan ja kuinka näitä hukkia voidaan poistaa. Tutkielmassa esitellään myös yksi lähestymistapa hukan lähteiden poistamisen priorisointia varten. Tutkielmassa alussa tutustutaan Lean-ajatteluun yleisesti ja tarkemmin sen soveltamiseen ohjelmistokehityksessä. Erityisenä mielenkiinnon kohteena on Lean määritysten mukainen hukka sekä kuinka sitä voidaan havaita ja poistaa ohjelmistokehitysprosessista. Tutkielmassa myös esitellään käytetyt tutkimusmenetelmät, menetelmien tulokset ja analysoidaan niitä. Tarkastelun kohteena oli erään valtiollisen toimijan IT-yksikön ohjelmistokehitysprojekti, joka alkoi joulukuussa 2011 ja päättyi vuoden 2015 maaliskuussa. Projektissa käytettiin monia ketteriä kehitysmenetelmiä, mutta ei Lean-menetelmiä suoranaisesti. Tutkielman aineisto kerättiin kartoittamalla arvovirtoja sekä muistioiden, raporttien, haastatteluiden ja kyselyn sisältöanalyysillä. Havaitut hukan lähteet jaoteltiin ohjelmistokehitykseen sovellettuihin 7 hukan luokkaan ja niiden aiheuttamasta hukasta pyrittiin keräämään mahdollisimman paljon vertailukelpoista tietoa. Luokkien mitattua hukkaa myös verrattiin koettuun hukkaan, jota mitattiin kyselyllä. Projektista pystyttiin havainnoimaan jokaisen luokan mukaista hukkaa. Suurimmasta osasta saatiin kuitenkin vain viitteellistä tietoa, eikä näiden määrää tai vaikutusta pystytty projektista kerätyistä tiedoista osoittamaan. Ne hukat, jotka saatiin mitattua, olivat kyselylomakkeella kerätyn aineiston mukaan paljon hukkaa aiheuttavia. Vastavuoroisesti jotain merkittäviksi koettuja hukkia ei pystytty mitta-aineistosta havaitsemaan. Kerättyjen tietojen perusteella voitiin tehdä selviä johtopäätöksiä hukista ja antaa suosituksia näiden poistamiseksi tai niiden vaikutuksen vähentämiseksi. Jatkotutkimuksen kohteiksi tunnistettiin esimerkiksi annettujen suositusten vaikutuksen tarkasteleminen.