Matemaattis-luonnontieteellinen tiedekunta

 

Recent Submissions

  • Simpura, Frans (Helsingin yliopisto, 2019)
    This thesis introduces, demonstrates, and evaluates a custom VR training content logic modeling approach, the VUTS method we have created. We inspect the content creation needs from the point of view of the occupational safety training focused VR platform, Virtuario™, developed at The Finnish Institute of Occupational Health. We review flow-based programming and Statecharts as comparison points to our approach and analyze techniques of secondary notation for their suitability for our needs. To define and evaluate our created hierarchical, visually representable flow approach, we use methods of design science to first define what we expect from an artifact that enables scalable, modular, and visualizable VR training content logic modeling: We test the artifact against requirements dictated by the pedagogical substance, software architecture development, and sustainable VR training content creation. We define the requirements for the artifact and test our developed approach against them by constructing real-life training scenarios utilizing the approach. We evaluate how this approach fares as the artifact to satisfy our set requirements. This thesis shows how our approach satisfies all the set requirements, is implementable within Unity3D game development platform, and is suitable for the content creation needs of Virtuario™.
  • Lehtonen, Tuomo (Helsingin yliopisto, 2019)
    Formal argumentation is a vibrant research area within artificial intelligence, in particular in knowledge representation and reasoning. Computational models of argumentation are divided into abstract and structured formalisms. Since its introduction in 1995, abstract argumentation, where the structure of arguments is abstracted away, has been much studied and applied. Structured argumentation formalisms, on the other hand, contain the explicit derivation of arguments. This is motivated by the importance of the construction of arguments in the application of argumentation formalisms, but also makes structured formalisms conceptually and often computationally more complex than abstract argumentation. The focus of this work is on assumption-based argumentation (ABA), a major structured formalism. Specifically we address the relative lack of efficient computational tools for reasoning in ABA compared to abstract argumentation. The computational efficiency of ABA reasoning systems has been markedly lower than the systems for abstract argumentation. In this thesis we introduce a declarative approach to reasoning in ABA via answer set programming (ASP), drawing inspiration from existing tools for abstract argumentation. In addition, we consider ABA+, a generalization of ABA that incorporates preferences into the formalism. The complexity of reasoning in ABA+ is higher than in ABA for most problems. We are able to extend our declarative approach to some ABA+ reasoning problems. We show empirically that our approach vastly outperforms previous reasoning systems for ABA and ABA+.
  • Lode, Lauri (Helsingin yliopisto, 2019)
    Hamiltonian Monte Carlo is a powerful Markov Chain algorithm, which is able to traverse complex posterior distributions accurately. One of the method's disadvantages is it's reliance on gradient evaluations over the full data, which quickly becomes computationally costly when the data sets grow large. By mini-batching the data set for stochastic gradient approximations we can speed up the algorithm, albeit with a reduced posterior accuracy. We illustrate by using a toy example, that the stochastic version of the method is unable to explore the exact posterior, and we show how an added friction term greatly alleviates this, when the term is adjusted carefully. We use the added stochastic error to our advantage, by turning the results differentially private. The randomness in the results masks the appearance of any single data point in the used data set, creating a way to more secure handling of sensitive data. In the case of stochastic gradient Hamiltonian Monte Carlo, we are able to achieve reasonable privacy bounds with little to no decrease in optimization performance, although finding a good the differentially private approximation of the target posterior becomes harder. In addition, we compare the previously considered privacy accounting methods to assay the privacy bounds to a new privacy loss distribution method, which is able to determine a tighter privacy profile than, for example, the moments accountant method.
  • Avikainen, Jari (Helsingin yliopisto, 2019)
    This thesis presents a wavelet-based method for detecting moments of fast change in the textual contents of historical newspapers. The method works by generating time series of the relative frequencies of different words in the newspaper contents over time, and calculating their wavelet transforms. Wavelet transform is essentially a group of transformations describing the changes happening in the original time series at different time scales, and can therefore be used to pinpoint moments of fast change in the data. The produced wavelet transforms are then used to detect fast changes in word frequencies by examining products of multiple scales of the transform. The properties of the wavelet transform and the related multi-scale product are evaluated in relation to detecting various kinds of steps and spikes in different noise environments. The suitability of the method for analysing historical newspaper archives is examined using an example corpus consisting of 487 issues of Uusi Suometar from 1869–1918 and 250 issues of Wiipuri from 1893–1918. Two problematic features in the newspaper data, noise caused by OCR (optical character recognition) errors and uneven temporal distribution of the data, are identified and their effects on the results of the presented method are evaluated using synthetic data. Finally, the method is tested using the example corpus, and the results are examined briefly. The method is found to be adversely affected especially by the uneven temporal distribution of the newspaper data. Without additional processing, or improving the quality of the examined data, a significant amount of the detected steps are due to the noise in the data. Various ways of alleviating the effect are proposed, among other suggested improvements on the system.
  • Lassila, Atte (Helsingin yliopisto, 2019)
    Modern software systems increasingly consist of independent services that communicate with each other through their public interfaces. Requirements for systems are thus implemented through communication and collaboration between different its services. This creates challenges in how each requirement is to be tested. One approach to testing the communication procedures between different services is end-to-end testing. With end-to-end testing, a system consisting of multiple services can be tested as a whole. However, end-to-end testing confers many disadvantages, in tests being difficult to write and maintain. When end-to-end testing should adopted is thus not clear. In this research, an artifact for continuous end-to-end testing was designed and evaluated it in use at a case company. Using the results gathered from building and maintaining the design, we evaluated what requirements, advantages and challenges are involved in adopting end-to-end testing. Based on the results, we conclude that end-to-end testing can confer significant improvements over manual testing processes. However, because of the equally significant disadvantages in end-to-end testing, their scope should be limited, and alternatives should be considered. To alleviate the challenges in end-to-end testing, investment in improving interfaces, as well as deployment tools is recommended.
  • Häggblom, Svante (Helsingin yliopisto, 2019)
    Background: User experience (UX) is seen as an important quality of a successful product and software companies are becoming increasingly interested in the field of UX. As UX has the goal to improve the experience of users, there is a need for better methods in measuring the actual experience. One aspect of UX is to understand the emotional aspect of experience. Psychophysiology studies the relations between emotions and physiology and electrodermal activity (EDA) has been found to be a physiological measurement of emotional arousal. Aims: The aim of this thesis is researching the utility of measuring EDA to identify moments of emotional arousal during human-computer interaction. By studying peaks in EDA during software interaction we expect to find issues in the software that work as triggers or stimuli for the peaks. Method: We used the design science methodology to develop EDAMUX. EDAMUX is a method to unobtrusively observe users, while gathering significant interaction moments through self reporting and EDA. A qualitative single-case study was conducted to evaluate the utility of EDAMUX. Results: We found that we can discover causes of bad user experience with EDAMUX. Moments of emotional arousal, derived from EDA, was found in conjunction with performance issues, usability issues and bugs. Emotional arousal was also observed during software interaction where the user was blaming themself. Conclusions: EDAMUX shows potential in discovering issues in software that are difficult to find with methods that rely on subjective self-reporting. Having the potential to objectively study emotional reactions is seen as valuable in complementing existing methods of measuring user experience.
  • Kettunen, Lilja (Helsingin yliopisto, 2019)
    Pro gradu -tutkielman tavoitteena oli selvittää kognitiivisten vinoumien eli systemaattisten ajatusvirheiden ilmenemistä ja vaikutusta ohjelmistotuotannossa. Kognitiiviset vinoumat ovat sisäsyntyinen ilmiö, jotka voivat heikentää ohjelmistokehittäjien päätöksentekokykyä ja siten vaikuttaa toteutettavan ohjelmiston laatuun. Toisaalta kognitiivisista vinoumista voi olla myös hyötyä; niiden ansiosta kehittäjät kykenevät tekemään nopeita ja intuitiivisia päätöksiä. Tutkielma toteutettiin systemaattisena kirjallisuuskatsauksena. Tutkielmassa selvitettiin, millä tavoin kognitiiviset vinoumat voivat esiintyä ohjelmistotuotannon eri vaiheissa; vaatimusmäärittelyssä, suunnittelussa, toteutuksessa ja testauksessa. Tutkielmassa kartoitettiin myös keinoja, joilla kognitiivisten vinoumien oletettuja haitallisia vaikutuksia voitaisiin vähentää. Kognitiivisilla vinoumilla havaittiin olevan tulosten perusteella useita eri vaikutuksia ohjelmistokehityksessä. Vinoumat voivat esimerkiksi vääristää työmääräarvioita, aiheuttaa ohjelmointivirheitä tai johtaa puutteelliseen testaamiseen. Keinoja vinoumien vähentämiseksi olivat tulosten mukaan koulutus, tekniset menetelmät sekä tehtävän tai ympäristön muokkaaminen niin, että päätöksentekijä käyttää tehtävään sopivia luontaisia ongelmanratkaisustrategioita. Monet vinoumien vähentämiskeinot olivat vain ehdotuksia eikä niitä ollut tutkittu kokeellisesti, joten keinojen kehittämisen ja niiden tehokkuuden selvittämisen havaittiin vaativan lisää tutkimusta.
  • Efimova, Maria (Helsingin yliopisto, 2019)
    Digitaalisten pelien kehitys on monipuolinen ala, johon sisältyy monia komponentteja. Yksi näistä komponenteista on visio, eli kehittäjien näkemys siitä, minkälaista lopputuotetta he ovat tekemässä. Alustava visio muodostetaan jo projektin alkuvaiheilla ja sitä parannellaan iteratiivisesti projektin edetessä. Yksi tekijöistä, jotka voivat vaikuttaa vision muutoksiin on käyttäjätutkimusten aikaansaannokset. Digitaalisilla peleillä on kuitenkin muusta ohjelmistotuotannosta poikkeavat tavoitteet käyttötarkoitukseen ja käytettävyyteen liittyen, joten perinteiset käyttäjätutkimusmenetelmät eivät välttämättä ole paras mahdollinen vaihtoehto. Käyttäjätutkimus peleissä onkin suhteellisen nuori ala, joka tarjoaa useita keinoja tutkia pelikokemusta. Käytössä on kuitenkin vain muutama. Käyttäjätutkimuksen aikaansaannokset eivät välttämättä sovi yhteen olemassa olevan vision kanssa ja suurten muutosten tekeminen projektin loppupuolella voi olla hankalaa. Lisäksi jatkuvien muutosten tapahtuessa visio voi unohtua tai pirstaloitua, jolloin lopputuotteen laatu kärsii. Tämän vuoksi kehittäjien tietotaito ja hyvä kommunikaatio kehitys- ja laadunvalvontatiimien välillä ovat välttämättömiä tasapainoisen yhteistoiminnan ja pelien kannalta parhaan mahdollisen lopputuloksen aikaansaamiseksi.
  • Ersalan, Muzaffer Gür (Helsingin yliopisto, 2019)
    In this thesis, Convolutional Neural Networks (CNN) and Inverse Mathematic methods will be discussed for automated defect detection in materials that are used for radiation detectors. The first part of the thesis is dedicated to the literature review on the methods that are used. These include a general overview of Neural Networks, computer vision algorithms and Inverse Mathematics methods, such as wavelet transformations, or total variation denoising. In the Materials and Methods section, how these methods can be utilized in this problem setting will be examined. Results and Discussions part will reveal the outcomes and takeaways from the experiments. A focus of this thesis is put on the CNN architecture that fits the task best, how to optimize that chosen CNN architecture and discuss, how selected inputs created by Inverse Mathematics influence the Neural Network and it's performance. The results of this research reveal that the initially chosen Retina-Net is well suited for the task and the Inverse Mathematics methods utilized in this thesis provided useful insights.
  • Hoya Quecedo, José María (Helsingin yliopisto, 2019)
    The problem of morphological ambiguity is central to many natural language processing tasks. In particular, morphologically rich languages pose a unique challenge due to the large number of possible forms some words can take. In this work, we implement and evaluate a method for morphological disambiguation of morphologically rich languages. We use deep learning techniques to build a disambiguation model and leverage existing tools to automatically generate a training data set. We evaluate our approach on the Finnish, Russian and Spanish languages. For these languages, our method surpasses the state-of-the-art results for the tasks of part-of-speech and lemma disambiguation.
  • Magnússon, Joonas (Helsingin yliopisto, 2019)
    Tässä tutkielmassa vertaillaan vertaillaan keskenään web-sovellusten käyttöliittymien automaattitestauksen menetelmiä. Tutkielmassa selvitetään mitä erityistä webohjelmistojen testaamisessa on, ja miten niitä on mahdollista testata. Tutkielmassa vertaillaan myös muutamia testiautomaation tekniikoita ja niitä hyödyntäviä ohjelmointikirjastoja ja työkaluja. Cypress on Javascript-pohjainen testiautomaatio kehys web-ohjelmistojen testaamiseen. Selenium Webdriver on Wedriver protokollaa hyödyntävä selainautomaatiokirjasto, jota käytetään mm. selainohjelmistojen testaamiseen. Sikuli on automaatiokirjasto, joka perustuu kuvantunnistukseen. Näitä kirjastoja ja niiden soveltamia tekniikoita vertaillaan keskenään niiden webohjelmistojen testaamiseen soveltuvuuden, testien kehityksen ja suorituksen tehokkuuden sekä alusta- ja selaintuen näkökulmista.
  • Toivanen, Pihla (Helsingin yliopisto, 2019)
    Valeuutiset ovat viime vuosina nousseet merkittäväksi yhteiskunnallisen keskustelun aiheeksi niin Suomessa kuin ulkomaillakin. Esimerkiksi vuoden 2016 yhdysvaltojen presidentinvaalien aikana jotkin valeuutiset levisivät laajemmalle kuin suosituimmat valtamediauutiset, ja valeuutisten onkin arveltu vaikuttaneen merkittävästi Trumpin voittoon kyseisissä vaaleissa. Aiemmasta suomalaisesta tutkimuksesta tiedetään, että Suomessa valeuutiset eivät aina sisällä suoraan virheellistä tietoa, ja tämän vuoksi suomalaisia valemedioita kutsutaan myös vastamedioiksi. Tiedetään myös, että suomalaisissa vastamediauutisissa kehystetään usein valtamedian uutisia tukemaan vastamedian omaa agendaa. Kehystämisellä tarkoitetaan viestinnän tutkimuksessa prosessia, jolla valikoinnin, poissulkemisen ja esimerkiksi metaforien ja iskulauseiden avulla muokataan mediaesityksen tulkintaa. Kehyksen käsite sekä kehysanalyysi ovat saaneet alkunsa sosiaalipsykologiasta ja levinneet sittemmin mediatutkimukseen. Laskennallisesti kehysanalyysiä on tehty sekä ohjatuilla että ohjaamattomilla koneoppimismenetelmillä, mutta yksikään näistä menetelmistä ei ole vakiintunut kehyksen operationalisoinnin monikäsitteisyyden vuoksi. Tämän tutkielman tarkoituksena on selvittää, millaisilla prosesseilla suomalainen vastamedia uudelleenkehystää valtamedian uutisia, sekä soveltaa ohjattua koneoppimista eri kehystämisen tapojen tunnistamiseen. Tutkimuskysymyksiin vastaamiseksi kerättiin kattava aineisto eräästä suomalaisesta vastamediasta, ja eroteltiin aineistosta valtamedialinkin sisältävät artikkelit. Tämän jälkeen identifioitiin laadullisesti kolme tapaa jolla vastamedia kehystää valtamedian uutisia: kritisoimalla valtamediaa, kopioimalla sisältöä sekä hyödyntämällä valtamedialähdettä argumentoinnin välineenä. Tässä tutkielmassa rakennetaan ohjattu koneoppimismalli kolmen edellä luetellun kehystämisen prosessin identifiointiin. Malli rakennettiin luokittelemalla 1000 artikkelin satunnaisotos valtamedialähteen sisältävästä aineistosta kolmeen edellä lueteltuun kehystämisen prosessin kategoriaan. Tämän jälkeen luokitellusta datasta eristettiin erilaisia piirteitä ja rakennettiin näiden pohjalta luokittelija. Työssä vertailtiin erilaisia satunnaismetsäluokittelijoita sekä tukivektorikoneita, joista eräs satunnaismetsäluokittelija suoriutui luokittelutehtävästi parhaiten. Luokittelijaa ei kuitenkaan voida pitää tarpeeksi tarkkana useimpiin käytännön hyvin korkeaa tarkkuutta vaativiin sovelluksiin. Luokittelijan merkittävimpinä pitämistä piirteistä saadaan kuitenkin uutta tietoa siitä, miten eri sanoja ja tekstin muotoilutyylillisiä keinoja käytetään eri kehystämistavoissa. Esimerkiksi artikkeleissa käytettyjen linkkien määrä sekä alaotsikkojen määrä nousivat luokittelijalle merkittävimpien piirteiden joukkoon. Tuloksista voidaan päätellä, että laskennallisessa mediatutkimuksessa sanojen lisäksi on hyödyllistä eristää myös artikkeliin liittyvää muotoiludataa. Toinen keskeinen tulos on, että ohjattua koneoppimista voidaan hyödyntää erilaisten median lähteeseen suuntautuvien orientaatioiden tunnistamiseen.
  • Hou, Jue (Helsingin yliopisto, 2019)
    Named entity recognition is a challenging task in the field of NLP. As other machine learning problems, it requires a large amount of data for training a workable model. It is still a problem for languages such as Finnish due to the lack of data in linguistic resources. In this thesis, I propose an approach to automatic annotation in Finnish with limited linguistic rules and data of resource-rich language, English, as reference. Training with BiLSTM-CRF model, the preliminary result shows that automatic annotation can produce annotated instances with high accuracy and the model can achieve good performance for Finnish. In addition to automatic annotation and NER model training, to show the actual application of my Finnish NER model, two related experiments are conducted and discussed at the end of my thesis.
  • Leinonen, Miika (Helsingin yliopisto, 2019)
    With the introduction of DNA sequencing over 40 years ago, we have been able to take a peek at our genetic material. Even though we have had a long time to develop sequencing strategies further, we are still unable to read the whole genome in one go. Instead, we are able to gather smaller pieces of the genetic material, which we can then use to reconstruct the original genome with a process called genome assembly. As a result of the genome assembly we often obtain multiple long sequences representing different regions of the genome, which are called contigs. Even though a genome often consists of a few separate DNA molecules (chromosomes), the number of obtained contigs outnumbers them substantially, meaning our reconstruction of the genome is not perfect. The resulting contigs can afterwards be refined by ordering, orienting and scaffolding them using additional information about the genome, which is often done manually by hand. The assembly process can also be guided automatically with the additional information, and in this thesis we are introducing a method that utilizes optical maps to aid us assemble the genome more accurately. A noticeable improvement of this method is the unification of the contigs, i.e. we are left with fewer but longer contigs. We are using an existing genome assembler called Kermit, which is designed to accept genetic maps as auxiliary long range information. Our contribution is the development of an assembly pipeline that provides Kermit with similar kind of information via optical maps. The initial results of our experiments show that the proposed genome assembly scheme can take advantage of optical maps effectively already during the assembly process to guide the reconstruction of a genome.
  • Juvonen, Atte (Helsingin yliopisto, 2019)
    We present a new framework to evaluate the security of voting schemes. We utilize the framework to compare a wide range of voting schemes, including practical schemes in realworld use and academic schemes with interesting theoretical properties. In the end we present our results in a neat comparison table. We strive to be unambiguous: we specify our threat model, assumptions and scope, we give definitions to the terms that we use, we explain every conclusion that we draw, and we make an effort to describe complex ideas in as simple terms as possible. We attempt to consolidate all important security properties from literature into a coherent framework. These properties are intended to curtail vote-buying and coercion, promote verifiability and dispute resolution, and prevent denial-of-service attacks. Our framework may be considered novel in that trust assumptions are an output of the framework, not an input. This means that our framework answers questions such as ”how many authorities have to collude in order to violate ballot secrecy in the Finnish paper voting scheme?”
  • Viinikka, Jussi (Helsingin yliopisto, 2019)
    Structure learning algorithms for Bayesian networks are typically evaluated by examining how accurately they recover the correct structure, given data sampled from a benchmark network. A popular metric for the evaluation is the structural Hamming distance. For real-world data there is no ground truth to compare the learned structures against. Thus, to use such data, one has been limited to evaluating the algorithms' predictive performance on separate test data or via cross-validation. The predictive performance, however, depends on the parameters of the network, for which some fixed values can be used or which can be marginalized over to obtain the posterior predictive distribution using some parameter prior. Predictive performance therefore has an intricate relationship to structural accuracy -- the two do not always perfectly mirror each other. We present intersection-validation, a method for evaluating structure learning without ground truth. The input to the method is a dataset and a set of compared algorithms. First, a partial structure, called the agreement graph, is constructed consisting of the features that the algorithms agree on given the dataset. Then, the algorithms are evaluated against the agreement graph on subsamples of the data, using a variant of the structural Hamming distance. To test the method's validity we define a set of algorithms that return a score maximizing structure using various scoring functions in combination with an exact search algorithm. Given data sampled from benchmark networks, we compare the results of the method to those obtained through direct evaluation against the ground truth structure. Specifically, we consider whether the rankings for the algorithms determined by the distances measured using the two methods conform with each other, and whether there is a strong positive correlation between the two distances. We find that across the experiments the method gives a correct ranking for two algorithms (relative to each other) with an accuracy of approximately 0.9, including when the method is applied onto a set of only two algorithms. The Pearson correlations between the distances are fairly strong but vary to a great extent, depending on the benchmark network, the amount of data given as input to intersection-validation and the sample size at which the distances are measured. We also attempt to predict when the method produces accurate results from information available in situations where the method would be used in practice, namely, without knowledge of the ground truth. The results from these experiments indicate that although some predictors can be found they do not have the same strength in all instances of use of the method. Finally, to illustrate the uses for the method we apply it on a number of real-world datasets in order to study the effect of structure priors on learning.
  • Ghasemi, Mandana (Helsingin yliopisto, 2019)
    Over the last years, Location-Based Services (LBSs) have become popular due to the global use of smartphones and improvement in Global Positioning System (GPS) and other positioning methods. Location-based services employ users' location to offer relevant information to users or provide them with useful recommendations. Meanwhile, with the development of social applications, location-based social networking services (LBSNS) have attracted millions of users because the geographic position of users can be used to enhance the services provided by those social applications. Proximity detection, as one type of location-based function, makes LBSNS more flexible and notifies mobile users when they are in proximity. Despite all the desirable features that such applications provide, disclosing the exact location of individuals to a centralized server and/or their social friends might put users at risk of falling their information in wrong hands, since locations may disclose sensitive information about people including political and religious affiliations, lifestyle, health status, etc. Consequently, users might be unwilling to participate in such applications. To this end, private proximity detection schemes enable two parties to check whether they are in close proximity while keeping their exact locations secret. In particular, running a private proximity detection protocol between two parties only results in a boolean value to the querier. Besides, it guarantees that no other information can be leaked to the participants regarding the other party's location. However, most proposed private proximity detection protocols enable users to choose only a simple geometric range on the map, such as a circle or a rectangle, in order to test for proximity. In this thesis, we take inspiration from the field of Computational Geometry and develop two privacy-preserving proximity detection protocols that allow a mobile user to specify an arbitrary complex polygon on the map and check whether his/her friends are located therein. We also analyzed the efficiency of our solutions in terms of computational and communication costs. Our evaluation shows that compared to the similar earlier work, the proposed solution increases the computational efficiency by up to 50%, and reduces the communication overhead by up to 90%. Therefore, we have achieved a significant reduction of computational and communication complexity.
  • Tiittanen, Henri (Helsingin yliopisto, 2019)
    Estimating the error level of models is an important task in machine learning. If the data used is independent and identically distributed, as is usually assumed, there exist standard methods to estimate the error level. However, if the data distribution changes, i.e., a phenomenon known as concept drift occurs, those methods may not work properly anymore. Most existing methods for detecting concept drift focus on the case in which the ground truth values are immediately known. In practice, that is often not the case. Even when the ground truth is unknown, a certain type of concept drift called virtual concept drift can be detected. In this thesis we present a method called drifter for estimating the error level of arbitrary regres- sion functions when the ground truth is not known. Concept drift detection is a straightforward application of error level estimation. Error level based concept drift detection can be more useful than traditional approaches based on direct distribution comparison, since only changes that affect the error level are detected. In this work we describe the drifter algorithm in detail, including its theoretical basis, and present an experimental evaluation of its performance in virtual concept drift detection on multiple datasets consisting of both synthetic and real-world datasets and multiple regression functions. Our experi- ments show that the drifter algorithm can be used to detect virtual concept drift with a reasonable accuracy.
  • Sarsa, Sami (Helsingin yliopisto, 2019)
    In this work, five text vectorisation models' capability in embedding Finnish case law texts to vector space for inter-textual similarity computation is studied. The embeddings and their computed similarities are used to create a Finnish case law retrieval system that allows effective querying with full documents. A working web application is presented as a part of the work. The case law data for the work is provided by the Finnish Ministry of Justice, and the studied models are: TF-IDF, LDA, Word2Vec, Doc2Vec and Doc2vecC.
  • Rantanen, Olli (Helsingin yliopisto, 2019)
    Lukion fysiikan kokeen tekeminen vaatii opiskelijalta monipuolisempia sisällöntuotannon taitoja kuin useimmat muut lukuaineet. Koevastauksiin tyypillisesti yhdistetään sanallista kirjoitusta, matemaattisten kaavojen symbolista johtamista, likiarvojen laskemista sekä tilannekuvapiirroksia. Kaikkia näitä on aiemmin voitu tuottaa yhdellä yhteisellä työkalulla eli lyijykynällä. Uusi opetussuunnitelma 2016 on kuitenkin muuttanut tämän, ja nykyään lukioiden kokeet sekä ylioppilaskokeet suoritetaan sähköisesti Abitti -koejärjestelmällä, jota käytetään USB-tikulle asennetun Digabi -käyttöjärjestelmän sisällä. Fysiikan kokeentekijän tulee nykyään hallita koneellisen kirjoittamisen lisäksi matemaattinen kirjoittaminen, numeerinen laskeminen, data-analyysi sekä digitaalinen kuvantuottaminen. Jokaista tarkoitusta varten kokelaan tulee itse valita joku Digabin tarjoamista ohjelmista. Valikoimaa on niin paljon, että opettajat keskittyvät useimmiten vain yhden tai kahden opettamiseen, mikä heijastuu usein opiskelijan omassa valinnassa. Digabin ohjelmille esitetään tässä opinnäytetyössä yleisiä käytettävyyden kriteerejä, joiden pohjalta on mahdollista tehdä arviointia hyödyllisyydestä. Ei enää riitä opiskella pelkästään koealueen aihesisältöä, vaan nykyään on opittava myös merkittävä määrä sisällöntuotto-ohjelmien tehokasta käyttöä. Tehokas ja asianmukainen Digabin ohjelmien käyttö mahdollistaa sen, että oman substanssiosaamisen saa esitettyä tarpeeksi hyvin ja nopeasti sähköisissä kokeissa. Kääntöpuolena on se, että kokeen tekemisen aikana opiskelijalla on riski suurempaan puhtaasti metodeista kumpuavaan kognitiiviseen kuormitukseen, joka voi pahimmillaan haitata kokeen suorittamista omaa osaamista vastaavalla tavalla. Ohjelmavalintoja voi ohjata pienimmän vastarinnan periaate, jolloin opiskelija näennäisesti valitsee itselleen matalimman oppimiskynnyksen ohjelman ymmärtämättä esimerkiksi toisten ohjelmien pikatoimintojen hyödyllisyyttä. Tämä korostuu erityisesti matemaattisessa tuottamisessa, missä vastakkain ovat kaavaeditorit ja ohjelmointisyntaksiin perustuvat ohjelmat. Tutkimusosio sisältää kyselyaineiston, joka on kerätty internetissä sijaitsevalta julkiselta keskustelufoorumilta. Tämä 52 vastaajan aineisto koostui opiskelijoista 43 eri lukiosta ympäri Suomea. Kyselyssä kartoitetaan monipuolisesti vastaajien subjektiivisia kokemuksia digitaalisesta työskentelystä ja koetusta kognitiivisesta kuormituksesta eri tyyppisten koetehtävien suhteen. Tätä aineistoa verrataan myös muihin referenssiaineistoihin. Vaikka primäärinen vastaajajoukko osoittautui olevan keskimääräistä harrastuneempaa tietoteknisten taitojen suhteen, vastauksien perusteelle he kokivat suurempaa ja eri tavalla painottunutta kognitiivista kuormitusta Abitti -kokeissa kuin perinteisissä kokeissa. Digitaalinen kuvien tuottaminen erottuu kognitiivisesti kuormittavimpana tekijänä. Lukiolaisilla on hyvin vaihteleva osaamistaito grafiikkaohjelmien suhteen ja tämä korostuu tärkeimpänä jatkokehityksen kohteena lukiokoulutuksessa.

View more