Matemaattis-luonnontieteellinen tiedekunta


Recent Submissions

  • Söderlund, Ilkka J I (2016)
    I avhandlingen konstrueras de naturliga talen utgående från mängdlärans axiom. Från de naturliga talen och deras egenskaper som bevisas i arbetet fortskrider avhandlingen steg för steg till de hela talen, de rationella talen och de reella talen. Bland de första stegen visar vi att det existerar en induktiv mängd som satisfierar Peanos axiom. Sedan bevisas rekursionsteoremet som används för att bygga upp aritmetiken för de naturliga talen. Genom ekvivalensrelationen $\langle m,n \rangle \sim \langle p,q \rangle \Leftrightarrow m+q=p+n$ konstrueras de hela talen som ekvivalensklasserna $\Z = (\N \times \N)/\sim$. I arbetet bevisas grundläggande aritmetiska regler för de hela talen samt gällande ordningsrelationen. På ett liknande sätt konstrueras mängden av rationella tal från mängden av hela tal med hjälp av ekvivalensrelationen $\langle a,b\rangle \sim \langle c,d\rangle \Leftrightarrow ad=bc$ där $a,b,c,d \in \Z$. I arbetet bevisas att mängden av rationella tal bildar en kropp. Även talföljder och därmed även fundamentalföljder studeras som en förberedelse för konstruktionen av de reella talen. I det sista steget, där vi konstruerar de ekvivalensrelationer som bygger upp de reella talen, så används en annan metod till skillnad från de hittills algebraiska metoderna. Ekvivalensrelationen baserar sig på fundamentalföljder i mängden av rationella tal. Vi definierar en ekvivalensrelation $(x_n)\sim (y_n)$ i mängden av fundamentalföljder $F_\Q$ genom gränsvärdet $L(x_n-y_n)=0$. Förutom att egenskaper för räkneoperationerna och ordningsrelationen bevisas, så visas även att mängden av de reella talen är fullständig. Som avslutning till avhandlingen granskas isomorfier mellan de konstruerade mängderna och icke-numrerbarheten av mängden reella tal.
  • Lei, Jinmin (2016)
    Despite of the efficiency brought by the high-throughput technology in detecting protein-protein interactions, different wet-lab methods still pose different pitfalls. As a complementary strategy, dry-lab methods are less expensive and have an advantage of data fusion that overcomes the biases of individual data sources. This thesis explores the indicative features and the effect of a graph model in the protein-protein interaction prediction task as well as the capability of the multiple kernel learning algorithms in improving the prediction performance.Different kernels are applied in accordance with different features. We integrate 14 global and 10 graph features respectively in the SVM framework via different kernel methods, and then compare the prediction performances of different features. When applying the graph features, we represent individual proteins as labeled graphs and then apply three different graph kernels to explore which one can best capture the relationships between proteins. For merging heterogeneous data, we apply different multiple kernel learning algorithms and explore their capabilities in improving the prediction accuracy. We formulate the prediction of protein-protein interactions as a binary classification problem and in the SVM framework, we need to reconstruct the kernel which measures the similarity between protein pairs from the kernel which measures the similarity between proteins. For this goal, we employ three different pairwise kernels in the SVM framework and explore their effects in capturing the relationships between protein pairs. We perform experiments on 896 Saccharomyces Cerevisiae (baker's yeast) proteins and report the prediction performances of the three pairwise kernels on 10 graph and 14 global features, as well as the prediction results of different multiple kernel learning algorithms. Our experimental results reveal that the overall prediction performance achieved by the 10 graph features applied to the proposed graph model is better than that achieved by the 14 protein global features, and that among all multiple kernel learning methods, the alignf wins over the others in the protein-protein interaction prediction task. Our methods detect the interacting proteins at a high level. Based on this work, low-level models can be devised to detect the exact interacting spots between proteins.
  • Rautiainen, Mikko (2016)
    The genomes of all animals, plants and fungi are organized into chromosomes, which contain a sequence of the four nucleotides A, T, C and G. Chromosomes are further arranged into homologous groups, where two or more chromosomes are almost exact copies of each others. Species whose homologous groups contain pairs of chromosomes, such as humans, are called diploid. Species with more than two chromosomes in a homologous group are called polyploid. DNA sequencing technologies do not read an entire chromosome from end to end. Instead, the results of DNA sequencing are small sequences called reads or fragments. Due to the difficulty of assembling the full genome from reads, a reference genome is not always available for a species. For this reason, reference-free algorithms which do not use a reference genome are useful for poorly understood genomes. A common variation between the chromosomes in a homologous group is the single nucleotide polymorhpism (SNP), where the sequences differ by exactly one nucleotide at a location. Genomes are sometimes represented as a consensus sequence and a list of SNPs, without information about which variants of a SNP belong in which chromosome. This discards useful information about the genome. Identification of variant compositions aims to correct this. A variant composition is an assignment of the variants in a SNP to the chromosomes. Identification of variant compositions is closely related to haplotype assembly, which aims to solve the sequences of an organism’s chromosomes, and variant detection, which aims to solve the sequences of a population of bacterial strains and their frequencies in the population. This thesis extends an existing exact algorithm for haplotype assembly of diploid species (Patterson et al, 2014) to the reference-free, polyploid case. Since haplotype assembly is NP-hard, the algorithm’s time complexity is exponential to the maximum coverage of the input. Coverage means the number of reads which cover a position in the genome. Lowering the coverage of the input is necessary. Since the algorithm does not use a reference genome, the reads must be ordered in some other way. Ordering reads is an NP-hard problem and the technique of matrix banding (Junttila, PhD thesis, 2011) is used to approxiately order the reads to lower coverage. Some heuristics are also presented for merging reads. Experiments with simulated data show that the algorithm’s accuracy is promising. The source code of the implementation and scripts for running the experiments are available online at
  • Lu, Yao (2016)
    This thesis is an investigation of unsupervised learning for image classification. The state-of-the-art image classification method is Convolutional Neural Network (CNN), which is a purely supervised learning method. We argue that despite of the triumph of supervised learning, unsupervised learning is still important and compatible with supervised learning. For example, in the situation where some classes have no training data at all, so called zero-shot learning task, unsupervised learning can leverage supervised learning to classify the images of unseen classes. We proposed a new zero-shot learning method based on CNN and several unsupervised learning algorithms. Our method achieves the state-of-the-art results on the largest public available labelled image dataset, ImageNet fall2011.
  • Tuominen, Pekko (2016)
    Forecasting of solar power energy production would benefit from accurate sky condition predictions since the presence of clouds is a primary variable effecting the amount of radiation reaching the ground. Unfortunately the spatial and temporal resolution of often used satellite images and numerical weather prediction models can be too small for local, intra-hour estimations. Instead, digital sky images taken from the ground are used as data in this thesis. The two main building blocks needed to make sky condition forecasts are reliable cloud segmentation and cloud movement detection. The cloud segmentation problem is solved using neural networks, a double exposure imaging scheme, automatic sun locationing and a novel method to study the circumsolar region directly without the use of a sun occluder. Two different methods are studied for motion detection. Namely, a block matching method using cross-correlation as the similarity measure and the Lukas-Kanade method. The results chapter shows how neural networks overcome many of the situations labelled as difficult for other methods in the literature. Also, results by the two motion detection methods are presented and analysed. The use of neural networks and the Lukas-Kanade method show much promise for forming the cornerstone of local, intra-hour sky condition now-casting and prediction.
  • Salminen, Samu (2016)
    Tämä Pro Gradu -tutkielma käsittelee työntekijän eläkelain (TyEL) nykyisin käytössä olevan Gompertz-kuolevuusmallin sopivuutta kuvaamaan TyEL:n selektiä kuolevuutta vanhuuseläkeliikkeessä. Tutkielman tarkoitus on nostaa esiin nykymallin ongelmakohdat ja esitellä Gompertz-kuolevuusmallin laajennus, joka ainakin osin korjaisi nykymallin puutteita pysymällä kuitenkin järjestelmätekniseltä kannalta tarpeeksi yksinkertaisena. Keskeisiksi teemoiksi tutkielmassa nousee elämänvaravakuutuksen yleisen teorian sekä työntekijän eläkelain vanhuuseläkeliikkeen vakuutustekniikan lisäksi toteutuvan kuolevuuden ennustaminen Lee-Miller-mallin sovelluksella ja laajennetun Gompertz-kuolevuusmallin parametrien estimointi havaintoaineistosta. Havaintoaineistona tutkielmassa käytetään sekä Tilastokeskuksen väestökuolevuuksia että TyEL:n riskiperusteanalyysien mukaisia toteutuneita rahapainotettuja kuolevuuksia. Ennustemalli on laadittu käyttäen R- ja Excel-ohjelmistoja (ml. VBA). Kuolevuusmallin laajennusta on kehitetty työeläkejärjestelmässä vuodesta 2014 laskuperusteasiain neuvottelukunnan alaisessa kuolevuusperustejaoksessa, jonka sihteerinä tutkielman kirjoittaja on toiminut vuosina 2014 ja 2015. Puheenjohtajayhtiönä kyseisinä vuosina on toiminut Keskinäinen Työeläkevakuutusyhtiö Elo ja puheenjohtajana tämän tutkielman toinen tarkastaja Tuomas Hakkarainen. Kuolevuusperustejaoksessa on edustus jokaisen työeläkeyhtiön lisäksi eläkekassoilla ja eläkesäätiöillä, Sosiaali- ja terveysministeriöllä, Eläketurvakeskuksella sekä Kevalla (julkisen puolen eläkkeet). Kuolevuusmallin valinnalla ja osuvuudella on merkitystä vanhuuseläkeliikkeessä, sillä se määrää pääoma-arvokertoimet, joilla varaudutaan vastaisten ja alkaneiden vanhuuseläkkeiden suorituksiin tulevaisuudessa. Tutkielmassa esitelty uusi kuolevuusmalli otetaan käyttöön vuoden 2017 eläkeuudistuksen yhteydessä, eli ensimmäisen kerran vanhuuseläkeliikkeen vanhuuseläkevastuut lasketaan sen mukaisina vuoden 2016 lopussa. Vanhuuseläkemaksu määräytyy uuden mallin mukaisesti vuodesta 2017 alkaen.
  • Althermeler, Nicole (2016)
    Metagenomics promises to shed light on the functioning of microbial communities and their sur- rounding ecosystem. In metagenomic studies the genomic sequences of a collection of microorgan- isms are directly extracted from a specific environment. Up to 99% of microbes cannot be cultivated in the lab; thus, traditional analysis techniques have very limited applicability in this challenging setting. By directly extracting the sequences from the environment, metagenomic studies circum- vents this dilemma. Thus, metagenomics has become a powerful tool in the analysis of the diversity and metabolic capability of environmental microbes. However, metagenomic studies have challenges of their own. In this thesis we investigate several aspects of metagenomic data set analysis, focusing on means of (1) verifying adequacy of taxonomic unit and enzyme representation and annotation in the sam- ple, (2) highlighting similarities between samples by principal component analysis, (3) visualizing metabolic pathways with manually drawn metabolic maps from the Kyoto Encyclopedia of Genes and Genomes, and (4) estimating taxonomic distributions of pathways with a novel strategy. A case study of deep bedrock groundwater metagenomic samples will illustrate these methods. Water samples from boreholes, up to 2500 meter deep, of two different sites of Finland display the applicability and limitations of aforementioned methods. In addition publicly available metage- nomic and genomic samples serve as baseline references. Our analysis resulted in a taxonomic and metabolic characterization of the samples. We were able to adequately retrieve and annotate the metabolic content based on the deep bedrock samples. The visualization provided a tool for further investigation. The microbial community distribution could be characterized on higher levels of abstraction. Previously suspected similarities to fungi or archaea were not verified. First promising results were observed with the novel strategy in estimating taxonomic distributions of pathways. Further results can be found at:
  • Kajosaari, Anna (2016)
    This master's thesis discusses the applicability of the concept of new-build gentrification in the context of Helsinki. The aim is to offer new ways to structure the framework of socio-economic change in Helsinki through this theoretical perspective and to explore the suitability of the concept of new-build gentrification in a context where the construction of new housing is under strict municipal regulations. The conceptual understanding of gentrification has expanded since the term's coinage, and has been enlarged to encompass a variety of new actors, causalities and both physical and social outcomes. New-build gentrification on its behalf is one of the manifestations of the current, third-wave gentrification. Over the upcoming years Helsinki is expected to face growth varying from moderate to rapid increase of the population. The last decade has been characterized by the planning of extensive residential areas in the immediate vicinity of the Helsinki CBD and the seaside due to the relocation of inner city cargo shipping. Accompanied with characteristics of local housing policy and existing housing stock, these developments form the framework where the prerequisites for the existence of new-build gentrification are discussed. The empirical part of this thesis concentrates on exploring the socio-economic and demographic structure of the resident base of Helsinki’s new-build housing areas. The main research method is a GIS- analysis based on the appliance of the YKR Database by SYKE and the Grid Database by Statistics Finland. Besides the quantitative analysis, the existence of new-build gentrification in Helsinki is discussed in the context of general argumentation for the phenomenon's applicability by the critical gentrification research perspective. The results of the study lead to the conclusion, that new-build gentrification does not occur in the chosen case areas as the process described in international case-studies suggest, but several of the characteristics of the phenomenon are however present in the local housing policies, housing market and development of new residential areas. In Helsinki the regulation of the tenure structure concerning the new-build housing stock has led to a situation, where the difference between new-build housing developments' and the surrounding areas' socio-economic status varies between the inner-and outer parts of the city. These results bear close resemblance to the outcomes of recent Western European studies highlighting the importance of comprehensive understanding of the local context in the contemporary gentrification research. The development of new-build housing areas in Helsinki is to some extent in line with international trends, but the specificities of national and local policy practices have led to distinct socio-cultural outcomes. The results support the notion that the concept of new-build gentrification becomes purposeful when accompanied with a more nuanced and comprehensive understanding of the local processes of urban change.
  • Heikkinen, Nina (2016)
    Kiteisessä kallioperässä havaitut suolaiset pohjavedet voivat sisältää huomattavia määriä kaasuja, joista yleisimpiä ovat metaani, typpi, vety ja helium. Maan pinnan olosuhteissa kaasut ovat yleensä melko niukkaliukoisia veteen. Syvemmällä maan kuoressa paine, lämpötila ja veden suolaisuus vaikuttavat huomattavasti kaasujen liukoisuuteen. Kaasut käyttäytyvät hyvin eri tavalla ollessaan liukoisena veteen kuin vapaana kaasuna, joten kaasujen olomuodon selvittäminen erilaisissa olosuhteissa on oleellista tutkittaessa esimerkiksi kaasujen ja pohjaveden alkuperää ja viipymisaikaa. Kaasujen liukoisuutta veteen erilaisissa olosuhteissa tarkastellaan fysikaalisen kemian, semiempiiristen mallien ja kaasujen liukoisuusaineistojen avulla. Metaanille, typelle, vedylle ja heliumille määritetään maksimiliukoisuuksia 273-323 K:n lämpötilassa, 1-300 barin paineessa ja 0-2 molaalisille suolaisuuksille. Paineen vaikutus kaasujen liukoisuuteen on merkittävin. Paineen kasvaessa myös kaasujen liukoisuus veteen kasvaa. Suolaisuuden kasvu vaikuttaa yleensä kaasujen liukoisuutta alentavasti, samoin kuin lämpötilan nousu. Kaasujen liukoisuustarkastelua sovelletaan myös Outokummun 2,5 km syvän kairareiän olosuhteisiin ja vuosina 2011-2012 kairaireiästä otetuista näytteistä havaittuihin kaasupitoisuuksiin. Tarkastellut kaasunäytteet on otettu paineellisilla menetelmillä, jotka pystyvät säilyttämään näytteenottosyvyydellä vallitsevan paineen näytteissä siihen asti, kunnes kaasut vapautetaan analyysiä varten laboratoriossa. Tämä mahdollistaa kaasujen luotettavan kvantitatiivisen tarkastelun, kun saadaan tarkkaa tietoa kaasumääristä näytesyvyyksillä. Outokummun syväkairareiässä esiintyy eniten metaania ja typpeä, syvimmissä osissa vety on hallitseva kaasu. Suurimmat kaasupitoisuudet on havaittu 970 metrin syvyydessä. Erillisiä kaasufaaseja ei näyttäisi esiintyvän näytesyvyyksillä (180, 500, 970, 1470, 1820, 2350 ja 2480 metriä), eli kaikki kaasut näyttäisivät olevan liuenneena veteen. Näytesyvyydellä 180 metriä kaasujen osapaineiden summa (n. 13 bar) on melko lähellä tällä syvyydellä vallitsevaa hydrostaattista painetta (n. 18 bar), joten ollaan mahdollisesti lähellä tilannetta, jossa kaasuja irtoaa liuoksesta kaasumaiseen muotoon. Todennäköisesti n. 150 metrissä ja sen yläpuolella kaasuja erkanee liuoksesta. Syvemmällä kairareiässä paineen vaikutus kaasujen liukoisuuteen on niin merkittävä, että kaasut ovat todennäköisesti liuenneena veteen 180 metrin alapuolella.
  • Aksola, Aleksanteri Mitja (2016)
    Tutkimusaineisto koostuu 21 dolomiitti näytteestä, jotka on otettu Kalvbergetin muodostumasta Länsi-Ruotsista. Näytteistä analysoitiin δ13C- ja δ18O-arvot, sekä hivenaineiden ja REE-alkuaineiden koostumus. Analysointiin käytettiin IRMS, XRD ja ICP-MS menetelmiä. Hivenainekoostumuksen perusteella selvitettiin, edustavatko isotooppiarvot primääristä mariinista arvoa vai ovatko arvot muuttuneet metamorfoosissa. REE-koostumuksesta pääteltiin, minkälaisissa olosuhteissa näytteet ovat muodostuneet. Keskeisin kysymys oli selvittää, edustavatko näytteet neoproterotsooisia kattokarbonaatteja sekä miten näytteet sijoittuvat globaalille neoproterotsooiselle δ13C-kuvaajalle. Näytteet olivat käyneet läpi vihreäliuske- amfiboliittifasieksen metamorfoosin. Näytteet oli otettu eripuolilta Kalvbergetin muodostumaa, n. 30 m matkalta. Paksuudeltaan näytesarja edusti 15 m koko Kalvbergetin muodostumasta. Näytteet K1-K6 olivat muuttuneet voimakkaammin kuin näytteet K7-K21. Tämä ilmeni hivenainekoostumuksessa, jossa havaittiin näytteiden K1-K6 kohdalla reaktioita silikaatin kanssa. Nämä reaktiot ovat muovanneet myös kyseisten näytteiden δ13C- ja δ18O-arvoja negatiivisemmiksi. Näytteiden K1-K6 δ13C-arvot vaihtelivat välillä -3,07 … -3,34‰ ja δ18O-arvot välillä -12,04 ... -12,59‰. Näytteillä K7-K21 δ13C-arvot vaihtelivat välillä +2,07 ... +4,42‰ ja δ18O-arvot välillä -5,94 ... -8,59‰. Metamorfoosin aiheuttaman muuttumisen perusteella näytteet K1-K6 hylättiin isotooppitarkastelusta. Näytteiden K7-K21 isotooppiarvot edustivat paremmin mariinisia arvoja. δ18O arvossa oli merkkejä muuttumisesta fluidien kanssa, mutta δ13C arvot edustivat lähes muuttumattomia arvoja. REE-koostumuksessa havaittiin merkkejä detritaalisesta aineksesta silikaattirikkaimmissa näytteissä. Tästä syystä osa näytteistä hylättiin, sillä näytteiden REE pitoisuudet lähestyivät PAAS pitoisuuksia eivätkä edustaneet alkuperäisiä mariinisia arvoja. Silikaattien aiheuttaman kontaminaation vuoksi myös näytteet, joiden karbonaattipitoisuus oli <85% hylättiin, jolloin REE-alkuaineiden tarkasteluun jäljelle jäivät näytteet K7, K11-K16, K18 sekä K20. Kyseisten näytteiden REE-kuvaajat lähestyivät modernien merivesien kuvaajia, joskin ne olivat köyhtyneet HREE alkuaineista verrattuna moderneihin merivesiin. Näytteiden Ce/Ce* anomalian perusteella näytteet olivat muodostuneet anoksisessa ympäristössä. Ce/Ce* anomalian keskiarvo oli 0,94, joka poikkeaa paljon nykyisistä oksisista merivesistä. Jäljelle jääneet näytteet K7-K21 sijoittuivat globaalilla δ13C kuvaajalla Marinoan ja Sturtian jääkausien väliin, n. 700 - 650 Ma ajalle. Tämän perusteella näytteet eivät siis edusta neoproterotsooisille jääkausille tyypillisiä kattokarbonaatteja, vaan ne ovat meressä jääkausien välisenä aikana muodostuneita karbonaattisedimenttejä.
  • YANG, SHUN (2015)
    Nowadays social media networking has dramatically increased. Social networking sites like Facebook make users create huge amount of profiles and share personal information within networking of different users. Social networking exposes personal information far beyond the group of friends. And that information or data on social media networking could be potential threat to people’s information security and privacy. In this review, we are going to view the privacy risks and security problems of social media websites. We also present the types of potential security attacks and how they are made. We will show the basic security requirements for social media networking and present some useful security solutions from both personal users and networking experts.
  • Kauppinen, Matti (2015)
    Tämä työ tutkii, miten terveystaltio- ja potilaskertomusjärjestelmien yhteentoimivuutta voidaan parantaa. Tutkielman lähtökohtana on, että nykyisillä standardeilla ja terveystiedon mallinnusratkaisuilla on mahdollista edistää yhteentoimivuutta sen eri tasoilla. Työssä tutustutaan terveystaltio- ja potilaskertomusjärjestelmiin ja näiden järjestelmien välisessä yhteentoimivuudessa esiintyviin ongelmiin. Yhteentoimivuuteen liittyvien ongelmien ratkaisemiseksi käydään läpi erilaisia standardeja ja mallinnusratkaisuja, joiden käyttöä arvioidaan järjestelmien välisessä tiedonvaihdossa. Tutkielman tuloksena on, että nykyisillä standardeilla ja mallinnusratkaisuilla voidaan parantaa terveystaltio- ja potilaskertomusjärjestelmien perustason, rakenteellisen tason ja osittaisen semanttisen tason yhteentoimivuutta.
  • Sakaya, Joseph Hosanna (2015)
    Traditional natural language processing has been shown to have excessive reliance on human- annotated corpora. However, the recent successes of machine translation and speech recognition, ascribed to the effective use of the increasingly availability of web-scale data in the wild, has given momentum to a re-surging interest in attempting to model natural language with simple statistical models, such as the n-gram model, that are easily scaled. Indeed, words and word combinations provide all the representational machinery one needs for solving many natural language tasks. The degree of semantic similarity between two words is a function of the similarity of the linguistic contexts in which they appear. Word representations are mathematical objects, often vectors, that capture syntactic and semantic properties of a word. This results in words that are semantic cognates having similar word representations, an important property that we will widely use. We claim that word representations provide a superb framework for unsupervised learning on unlabelled data by compactly representing the distributional properties of words. The current state-of-the-art word representation adopts the skip-gram model to train shallow neural networks and presents negative sampling, an idea borrowed from Noise Contrastive Estimation, as an efficient method of inducing embeddings. An alternative approach contends that the inherent multi-contextual nature of words entails a more Canonical Correlation Analysis-like approach for best results. In this thesis we develop the first fully Bayesian model to induce word embeddings. The prominent contributions of this thesis are: 1. A crystallisation of the best practices from previous literature on word embeddings and matrix factorisation into a single hierarchical Bayesian model. 2. A scalable matrix factorisation technique for structured sparse data. 3. Representation of the latent dimensions as continuous Gaussian densities instead of as point estimates. We analyse a corpus of 170 million tokens and learn for each word form a vectorial representation based on the 8 surrounding context words with a negative sampling rate of 2 per token. We would like to stress that while we certainly hope to beat the state-of-the-art, our primary goal is to develop a stochastic and scalable Bayesian model. We evaluate the quality of the word embeddings against the word analogy tasks as well as other such tasks as word similarity and chunking. We demonstrate competitive performance on standard benchmarks.
  • Noordsij, Dennis (2015)
    Application of machine learning methods for the analysis of functional neuroimaging signals, or "brain-function decoding", is a highly interesting approach for better understanding of human brain functions. Recently, Kauppi et al. presented a brain-function decoder based on a novel feature extraction approach using spectral LDA, which allows both high classification accuracy (the authors used sparse logistic regression) and novel neuroscientific interpretation of the MEG signals. In this thesis we evaluate the performance of their brain-function decoder with additional classification and input feature scaling methods, providing possible additional options for their spectrospatial decoding toolbox SpeDeBox. We find the performance of their brain-function decoder to validate the potential of high frequency rhythmic neural activity analysis, and find that the logistic regression classifier provides the highest classification accuracy when compared to the other methods. We did not find additional benefits in applying prior input feature scaling or reduction methods.