Browsing by Subject "koneoppiminen"

Sort by: Order: Results:

Now showing items 1-20 of 27
  • Nelimarkka, Matti (2019)
    Aihemallinnus mahdollistaa laajojen tekstiaineistojen automaattisen ryhmittelyn käyttämällä ohjaamatonta koneoppimista. Kiinnostus aihemallinnusta kohtaan on kasvanut ja sen soveltaminen on lisääntynyt yhteiskuntatieteellisessä tutkimuksessa. Aihemallinnus sekä muut ohjaamattoman koneoppimisen menetelmät kuitenkin vaativat tutkijoita tekemään valintoja: tutkijat joutuvat esimerkiksi päättämään mitä koneoppimismenetelmää käytetään, miten sitä käytetään ja miten aineistoa esikäsitellään, Lisäksi on kyettävä tulkitsemaan ohjaamattoman koneoppimisen kautta syntyneet tulokset. Aihemallinnuksessa eräs valinta koskee aiheiden määrää, josta on käyty aktiivisesti keskustelua niin koneoppimisen kuin laskennallisen yhteiskuntatieteen yhteisöissä. Artikkelin esittelemä käyttäjäkoe osoittaa, että yhteiskuntatieteissä suosittu, tulkinnallisuutta korostava lähestymistapa aihemäärän valintaan on epävarma. Artikkelin empiirinen esimerkki osoittaa, että aihemäärän valinta vaikuttaa aihemallinnuksesta syntyviin tulkintoihin. Tämän pohjalta artikkeli suosittaa, että (i) parametrien valinnassa käytettäisiin tilastollisia menetelmiä. Lisäksi suositellaan, että (ii) aihemallinnuksen tulokset sidotaan yhteiskuntatieteelliseen kirjallisuuteen käyttämällä teoreettista viitekehystä tulkinnan apuna tai aihemallinnusta käytetään joko menetelmällisesti trianguloiden tai grounded theory -lähtöisesti. Lisäksi artikkelissa suositellaan, että (iii) tutkimusprosessin avoimuuteen kiinnitetään huomiota sekä (iv) laskennallisten menetelmien soveltajat seuraavat kriittisen algoritmitutkimuksen kehitystä.
  • Romppainen, Jonna (Helsingin yliopisto, 2020)
    Surface diffusion in metals can be simulated with the atomistic kinetic Monte Carlo (KMC) method, where the evolution of a system is modeled by successive atomic jumps. The parametrisation of the method requires calculating the energy barriers of the different jumps that can occur in the system, which poses a limitation to its use. A promising solution to this are machine learning methods, such as artificial neural networks, which can be trained to predict barriers based on a set of pre-calculated ones. In this work, an existing neural network based parametrisation scheme is enhanced by expanding the atomic environment of the jump to include more atoms. A set of surface diffusion jumps was selected and their barriers were calculated with the nudged elastic band method. Artificial neural networks were then trained on the calculated barriers. Finally, KMC simulations of nanotip flattening were run using barriers which were predicted by the neural networks. The simulations were compared to the KMC results obtained with the existing scheme. The additional atoms in the jump environment caused significant changes to the barriers, which cannot be described by the existing model. The trained networks also showed a good prediction accuracy. However, the KMC results were in some cases more realistic or as realistic as the previous results, but often worse. The quality of the results also depended strongly on the selection of training barriers. We suggest that, for example, active learning methods can be used in the future to select the training data optimally.
  • Ärje, Johanna; Melvad, Claus; Jeppesen, Mads Rosenhoj; Madsen, Sigurd Agerskov; Raitoharju, Jenni; Rasmussen, Maria Strandgård; Iosifidis, Alexandros; Tirronen, Ville; Gabbouj, Moncef; Meissner, Kristian; Hoye, Toke Thomas (British Ecological Society, 2020)
    Methods in Ecology and Evolution 11 8 (2020)
    1. Understanding how biological communities respond to environmental changes is a key challenge in ecology and ecosystem management. The apparent decline of insect populations necessitates more biomonitoring but the time-consuming sorting and expert-based identification of taxa pose strong limitations on how many insect samples can be processed. In turn, this affects the scale of efforts to map and monitor invertebrate diversity altogether. Given recent advances in computer vision, we propose to enhance the standard human expert-based identification approach involving manual sorting and identification with an automatic image-based technology. 2. We describe a robot-enabled image-based identification machine, which can automate the process of invertebrate sample sorting, specimen identification and biomass estimation. We use the imaging device to generate a comprehensive image database of terrestrial arthropod species which is then used to test classification accuracy, that is, how well the species identity of a specimen can be predicted from images taken by the machine. We also test sensitivity of the classification accuracy to the camera settings (aperture and exposure time) to move forward with the best possible image quality. We use state-of-the-art Resnet-50 and InceptionV3 convolutional neural networks for the classification task. 3. The results for the initial dataset are very promising as we achieved an average classification accuracy of 0.980. While classification accuracy is high for most species, it is lower for species represented by less than 50 specimens. We found significant positive relationships between mean area of specimens derived from images and their dry weight for three species of Diptera. 4. The system is general and can easily be used for other groups of invertebrates as well. As such, our results pave the way for generating more data on spatial and temporal variation in invertebrate abundance, diversity and biomass.
  • Vihervaara, Petteri; Kullberg, Peter; Hurskainen, Pekka (2019)
    Futura 3/2019
    Our planet is undergoing massive global change. We are increasingly aware of the biodiversity crisis, which raises concerns about the future of nature and humankind. Targets and goals set at several multilateral environmental agreements to stop the crisis have been agreed upon, but their effective follow-up and implementation require relevant and timely biodiversity data. For this purpose, a set of policy-relevant Essential Biodiversity Variables (EBVs), describing the biological state and capturing the major dimensions of biodiversity change, have been proposed. Generating EBVs requires integration of in situ and Earth observation data. The former is collected in the field by experts, citizens, or automatic sensor networks, assisted by new technologies such as eDNA and machine learning, while the latter is measured from space or air, enabled by analysis-ready multi-sensor data and cloud computing services. As a case example for better biodiversity monitoring, the Finnish Ecosystem Observatory (FEO) is proposed. FEO will combine and standardize environmental information from different data sources, making the data, metadata and models openly available and easily accessible to users and policy makers.
  • Poutanen, Julia (Helsingin yliopisto, 2018)
    Tämän tutkielman tarkoituksena on tutkia aikuisten ja nuorten kielenkäytön välisiä eroja ranskankielisessä tekstiviestiaineistossa. Eroja tutkitaan luomalla koneoppimista hyödyntävä automaattinen luokittelija, joka kykenee erottelemaan aikuisten ja nuorten tekstiviestit toisistaan. Työssä tarkastellaan luokittelijan antamia tuloksia ja pyritään selvittämään, miten luokittelijan toimintaa voidaan parantaa kielenkäytöstä saatujen tietojen valossa esimerkiksi tutkielmassa määritellyillä piirteillä (engl. feature). Teoriaosassa käsitellään tekstiviestikielen piirteiden lisäksi iän ja kielenkäytön välistä suhdetta sekä kieliteknologialle ja korpuslingvistiikalle tärkeitä käsitteitä. Menetelmänä käytetystä tilastollisesta luokittelijasta esitellään siihen liittyvä olennainen teoria sekä muita tutkielman kannalta tärkeitä käsitteitä. Tutkielman aineisto on kerätty Montpellier’ssä, Ranskassa vuonna 2011, ja se koostuu silloiseen tutkimukseen osallistuneiden lähettämistä tekstiviesteistä. Tekstiviestejä on yhteensä 88 000, ja niistä noin 70 000 käytetään tutkielmassa. Analyysissä keskitytään sekä kielellisiin että teknisiin piirteisiin: tarkastelun kohteina ovat täten sekä malli että aineiston kielelliset piirteet. Tutkimustuloksista selviää, että luokittelija toimii varsin hyvin tekstiviestien erottelussa, mutta tutkielmassa erikseen määritellyt piirteet eivät paranna merkittävästi luokittelijan toimintaa. Piirteistä voidaan kuitenkin tehdä joitakin johtopäätöksiä: tekstiviesteille on tyypillistä keskustelunomainen kielenkäyttö viestin lähettäjän ja vastaanottajan välillä sekä puhekieli. Analysoitujen viestien perusteella voidaan nähdä, että tekstiviestikielen ominaispiirteisiin kuuluvat ääntämistä ja foneettista muotoa heijastavat sanamuodot ja että tekstiviesti muodostanee oman rekisterinsä ranskan kielessä.
  • Niittynen, Pekka; Heikkinen, Risto K.; Luoto, Miska (2020)
    Proceedings of the National Academy of Sciences of the United States of America 117: 35, 21480-21487
    The Arctic is one of the least human-impacted parts of the world, but, in turn, tundra biome is facing the most rapid climate change on Earth. These perturbations may cause major reshuffling of Arctic species compositions and functional trait profiles and diversity, thereby affecting ecosystem processes of the whole tundra region. Earlier research has detected important drivers of the change in plant functional traits under warming climate, but studies on one key factor, snow cover, are almost totally lacking. Here we integrate plot-scale vegetation data with detailed climate and snow information using machine learning methods to model the responsiveness of tundra communities to different scenarios of warming and snow cover duration. Our results show that decreasing snow cover, together with warming temperatures, can substantially modify biotic communities and their trait compositions, with future plant communities projected to be occupied by taller plants with larger leaves and faster resource acquisition strategies. As another finding, we show that, while the local functional diversity may increase, simultaneous biotic homogenization across tundra communities is likely to occur. The manifestation of climate warming on tundra vegetation is highly dependent on the evolution of snow conditions. Given this, realistic assessments of future ecosystem functioning require acknowledging the role of snow in tundra vegetation models.
  • Viinikka, Arto; Hurskainen, Pekka; Keski-Saari, Sarita; Kivinen, Sonja; Tanhuanpää, Topi; Mäyrä, Janne; Poikolainen, Laura; Vihervaara, Petteri; Kumpula, Timo (MDPI, 2020)
    Remote Sensing 12 16 (2020)
    Sustainable forest management increasingly highlights the maintenance of biological diversity and requires up-to-date information on the occurrence and distribution of key ecological features in forest environments. European aspen (Populus tremula L.) is one key feature in boreal forests contributing significantly to the biological diversity of boreal forest landscapes. However, due to their sparse and scattered occurrence in northern Europe, the explicit spatial data on aspen remain scarce and incomprehensive, which hampers biodiversity management and conservation efforts. Our objective was to study tree-level discrimination of aspen from other common species in northern boreal forests using airborne high-resolution hyperspectral and airborne laser scanning (ALS) data. The study contained multiple spatial analyses: First, we assessed the role of different spectral wavelengths (455–2500 nm), principal component analysis, and vegetation indices (VI) in tree species classification using two machine learning classifiers—support vector machine (SVM) and random forest (RF). Second, we tested the effect of feature selection for best classification accuracy achievable and third, we identified the most important spectral features to discriminate aspen from the other common tree species. SVM outperformed the RF model, resulting in the highest overall accuracy (OA) of 84% and Kappa value (0.74). The used feature set affected SVM performance little, but for RF, principal component analysis was the best. The most important common VI for deciduous trees contained Conifer Index (CI), Cellulose Absorption Index (CAI), Plant Stress Index 3 (PSI3), and Vogelmann Index 1 (VOG1), whereas Green Ratio (GR), Red Edge Inflection Point (REIP), and Red Well Position (RWP) were specific for aspen. Normalized Difference Red Edge Index (NDRE) and Modified Normalized Difference Index (MND705) were important for coniferous trees. The most important wavelengths for discriminating aspen from other species included reflectance bands of red edge range (724–727 nm) and shortwave infrared (1520–1564 nm and 1684–1706 nm). The highest classification accuracy of 92% (F1-score) for aspen was achieved using the SVM model with mean reflectance values combined with VI, which provides a possibility to produce a spatially explicit map of aspen occurrence that can contribute to biodiversity management and conservation efforts in boreal forests.
  • Alopaeus, Pilvi (Helsingin yliopisto, 2020)
    Sen vaikutukset ulottuvat kaikkialle yhteiskuntaan. Digitalisaatio näkyy esimerkiksi tehokkaampana terveydenhuoltona ja tuo esimerkiksi mukanaan enemmän ja tasa-arvoisemmin mahdollisuuksia koulutukseen. Tekoälyn ja erityisesti koneoppimisen keksiminen on merkinnyt digitalisaatiolle yhtä suurta mullistusta kuin mitä digitalisaatio oli yhteiskunnalle. Tämän merkityksen on tunnistanut niin yritykset kuin lainsäätäjäkin. Datasta on tekoälyn kehittymisen myötä toden totta tullut uusi öljy. Jos data on modernin yhteiskunnan uusi öljy, on tietosuoja sen ilmastonmuutos. Tietystä kulmasta katsottuna sen voi katsoa olevan uhka öljylle, mutta se voi myös tarjota mahdollisuuksia uudistaa datan päälle rakentuvien liiketoiminnan tapoja toimia kestävämmällä pohjalla. Henkilötietojen suojan voi nähdä liiketoimintaa rajoittavana tekijänä tai sen voi ottaa liiketoiminnan parhaaksi kilpailuvaltiksi. Tässä tutkielmassa pureudutaan Euroopan unionin tietosuojasääntelyn tavoitteiden intressitasapainon juuriin ja sen vaikutukseen tekoälyyn ja erityisesti koneoppimiseen liittyvän tietosuojasääntelyn ongelmiin ”right to explanation”-oikeuden näkökulmasta. Tutkimus tarkastelee ensin tietosuojalainsäädännön historiaa 1970-luvulta eteenpäin sitä leimaavan ja hallitsevan kahden vahvan intressin, digitaalisten sisämarkkinoiden kasvattamisen ja perusoikeuksien suojan, tasapainottelun näkökulmasta. Kun paino 1970-luvulla oli selvästi enemmän taloudellisten intressien edistämisessä, on se sittemmin siirtynyt toiseen päähän tavoitteenaan tehdä vahvasta perusoikeuksien suojasta kilpailuetu, jolla EU voi kilpailla erityisesti Yhdysvaltojen ja Kiinan kanssa. Sen jälkeen tutkielma siirtyy käsittelemään Euroopan unionin tekoälystrategian ensiaskelia ja saman intressien tasapainottelun vaikutuksia siihen. Keskeiseksi nousee jälleen tietosuojasta tutut arvot: teknologian läpinäkyvyyden ja luottamuksen painottaminen perusoikeuksien vakuutena. Samalla unioni strategiaksi muodostuu luoda globaali standardi eettiselle tekoälylle. Kehitykseen on vaikuttanut ympäröivässä maailmassa tapahtuneet muutokset ja se voima, millä teknologian kehitys on yhteiskuntaa ajanut. Teknologian kehityksen luonne on voimakas, rimpuileva ja ennakoimaton, joka asettaa lainsäätäjän kilpajuoksuun, jossa se on aina muutaman askeleen jäljessä. Tasapainottelun tarkastelu on tärkeää, sillä siitä on seurannut yritys luoda "joustavaa" lainsäädäntöä unionin lainsäädäntöinstrumenteilla. Tällä yrityksellä on ollut seurauksensa, joka näkyy hyvin koneoppimista koskevassa tietosuojasääntelyssä ja sen oikeusvarmuudessa. Keskeinen ongelma on right to explanation -oikeuden olemassaolon epävarmuus, joka on keskeinen elementti koneoppimisen innovaatiolle. Erityisesti, kuin tietosuojalainsäädännön mukana tulee myös mahdollisesti merkittävät sanktiot. Oikeusvarmuus on myös keskeistä unionin taloudellisten intressien saavuttamiselle. Näyttääkin siltä, että unionin intressitasapainottelun tuloksena syntynyt lainsäädäntö onkin johtanut tilanteeseen, joka voi potentiaalisesti estää unionin tavoitteiden saavuttamista.
  • Laakom, Firas; Raitoharju, Jenni; Passalis, Nikolaos; Iosifidis, Alexandros; Gabbouj, Moncef (Institute of Electrical and Electronics Engineers (IEEE), 2022)
    IEEE Access
    Spectral-based subspace learning is a common data preprocessing step in many machine learning pipelines. The main aim is to learn a meaningful low dimensional embedding of the data. However, most subspace learning methods do not take into consideration possible measurement inaccuracies or artifacts that can lead to data with high uncertainty. Thus, learning directly from raw data can be misleading and can negatively impact the accuracy. In this paper, we propose to model artifacts in training data using probability distributions; each data point is represented by a Gaussian distribution centered at the original data point and having a variance modeling its uncertainty. We reformulate the Graph Embedding framework to make it suitable for learning from distributions and we study as special cases the Linear Discriminant Analysis and the Marginal Fisher Analysis techniques. Furthermore, we propose two schemes for modeling data uncertainty based on pair-wise distances in an unsupervised and a supervised contexts.
  • Romantschuk, Peik (Helsingin yliopisto, 2021)
    Mål: Diabetes är en sjukdom som uppstår då bukspottkörteln inte kan producera tillräckliga mängder av insulin för att upprätthålla en fysiologisk nivå på blodsockret. Olika patofyisologiska mekanismer ligger bakom detta tillstånd och är beroende på typen av diabetes. För optimal vård av diabetes, är det viktigt att vid ett tidigt skede kunna utgöra vilken typ av diabetes en patient har insjuknat i. Metod: I denna studie undersökte vi vilka kliniska variabler är mest betydande för att skilja mellan typ 1 och typ 2 diabetes, vid tidpunkten av diagnos. Vi använder dessa variabler för att träna och validerar en CART maskininlärnigsmodell för att kunna skilja på typ 1 och typ 2 diabetes, speciellt i fall där det är oklart vilken subtyp patenten hör till. Resultat: Blodsockernivå, C-peptidnivå samt deras förhållande och BMI samt ålder vid insjunkning i diabetes visade sig vara de mest signifikanta kliniska variablerna. Vår modell klarade av att skilja på typ 1 och typ 2 diabetes med 91,8 % noggrannhet av testdatat som bestod av 1175 patienter. CART modellen är således en användbar modell för att differentiera diabetes typer vid tidpunkten av diagnos hos patienter över 16 år. (190 ord)
  • Limingoja, Leevi; Antila, Kari; Jormanainen, Vesa; Röntynen, Joel; Jägerroos, Vilma; Soinen, Leena; Nordlund, Hanna; Vepsäläinen, Kristian; Kaikkonen, Risto; Lallukka, Tea (Helsingin yliopisto, 2022)
    Abstract Background: To address the current COVID-19 and any future pandemic, we need a robust, real-time, and population-scale collection and analysis of data. Rapid and comprehensive knowledge on the trends in reported symptoms in populations provides an earlier window into the progression of the viral spread and helps to predict the needs and timing of professional healthcare. Objective: The objective of this study was to use a CE-marked medical online symptom checker service, ©Omaolo, and validate the data against the national demand for COVID- 19-related care to predict the pandemic progression in Finland. Methods: Our data comprised real-time ©Omaolo COVID-19 symptom checker responses (414,477 in total) and daily admission counts in nationwide inpatient and outpatient registers provided by the Finnish Institute for Health and Welfare (THL) from March 16th to June 15th, 2020 (the first wave of the pandemic in Finland). The symptom checker responses provide self-triage information input to a medically qualified algorithm that produces a personalised probability of having COVID-19, and provides graded recommendations for further actions. We trained linear regression and XGBoost models together with F-score and mutual information feature pre-selectors to predict the admissions once a week, one week in advance. Results: Our models reached a MAPE (mean absolute percentage error) between 24.2% and 36.4% in predicting the national daily patient admissions. The best result was achieved by combining both ©Omaolo and historical patient admission counts. Our best predictor was linear regression with mutual information as the feature pre-selector. Conclusions: Accurate short-term predictions of COVID-19 patient admissions can be made, and both the symptom check questionnaires and the daily admissions data contribute to the accuracy of the predictions. Thus, symptom checkers can be used to estimate the progression of the pandemic, which can be considered when predicting the healthcare burden in a future pandemic.
  • Korhonen, Markus (Helsingin yliopisto, 2019)
    Hintavakauden saavuttamisesta on tullut keskuspankkien tärkeimpiä tehtäviä kaikkialla maailmassa, ja useat keskuspankit pyrkivät tiettyyn, hyvin määriteltyyn inflaatiotavoitteeseen. Samoin Euroopan keskuspankki pyrkii rahapolitiikallaan pitämään inflaation kahden prosentin tuntumassa. Inflaatiotavoite kuitenkin vaatii sen, että inflaatiota voidaan ennustaa mahdollisimman tarkasti. Koneoppimismetodeihin kuuluvat neuroverkkomallit ovat osoittautuneet olemaan monilla aloilla hyviä ennustemalleja. Inflaation ennustamisessa neuroverkkomallien tulokset ovat kuitenkin olleet ristiriitaisia. Aiempi tutkimus inflaation ennustamisesta on myös keskittynyt lähinnä Yhdysvaltojen ja muiden yksittäisten maiden inflaatioon. Tutkimusta ei ole myöskään tehty inflaation ennustamisesta eri suhdannetilanteissa neuroverkkomallien avulla. Tässä tutkielmassa tutkittiinkin neuroverkkomallin kykyä ennustaa inflaatiota koko euroalueella vuosien 2008-2009 taantuman aikana. Tutkielman aineistona käytettiin euroalueen harmonisoidusta kuluttajahintaindeksistä muodostettua inflaatioaikasarjaa vuosilta 1997-2010. Tutkielmassa epälineaarinen neuroverkko rakennettiin aiemmasta kirjallisuudesta vakiintuneella metodilla, jossa mallin valinta suoritettiin käyttämällä erillistä aineistoa. Valitulla mallilla simuloitiin aitoa ennustetilannetta käyttämällä euroalueen taantuman aikaista testiaineistoa. Ennusteet tehtiin myös taantuman jälkeiselle noususuhdanteelle, jotta eri suhdannetilanteita voitiin vertailla. Lisäksi samat ennusteet tehtiin ekonometriassa vakiintuneella lineaarisella mallilla, johon neuroverkkomallia verrattiin käyttämällä aiemmasta kirjallisuudesta tuttuja arviointikriteerejä ja tilastollisia testejä. Tutkielmassa selvisi, että neuroverkkomalli tuottaa hyvin tarkkoja ennusteita inflaatiolle kaikilla tutkielmassa käytetyillä ennusteväleillä. Neuroverkkomallin ennusteet ovat myös parempia, jos käytettävä aineisto on kausitasoitettu. Neuroverkkomalli tekee pienempiä ennustevirheitä noususuhdanteen aikana kuin taantumassa, mutta erot eri suhdannetilanteissa eivät ole kovin suuria. Neuroverkkomallin ennusteet eivät kuitenkaan poikkea yksinkertaisen lineaarisen mallin tekemistä ennusteista tilastollisesti merkitsevästi kummassakaan suhdannetilanteessa. Näin ollen neuroverkkomallin ei voida päätellä toimivan eri tavalla taloudellisessa taantumassa kuin muissa suhdannetilanteissa. Tutkielman tulosten perusteella neuroverkkomallia ei voida suositella keskuspankkien inflaatioennustemalliksi, koska mallin valinta ja testaaminen vievät yksinkertaista lineaarista mallia enemmän aikaa, mutta ennustetulokset eivät ole lineaarista mallia parempia. Tulokset antavatkin todisteita siitä, että inflaatio on euroalueella lineaarinen prosessi, jolloin epälineaariset mallit eivät tuota ennusteisiin lisähyötyä. Neuroverkkomallit voivat kuitenkin antaa hyvän työkalun keskuspankkien toiminnan arvioimiseen, koska niiden tuottamat ennusteet ovat tarkkoja pitemmillekin aikaväleille.
  • Räsänen, Toni (Helsingin yliopisto, 2020)
    Jatkuvan integraation ja julkaisun (CI/CD) käytänteet ovat tulleet osaksi ohjelmistojenkehitystä osin ketterien ohjelmistokehityskäytänteiden leviämisen myötä. Jatkuva integraatio ja julkaisu pyrkivät tuomaan läpinäkyvyyttä ja seurattavuutta ohjelmistojen kehitykseen. Ne mahdollistavat ohjelmistojen kehityksen pienissä paloissa ja tukevat uusien ominaisuuksien tai korjauksien mahdollisimman vaivatonta julkaisua ja integrointia olemassa olevaan sovellukseen. Koneoppimismallien yleistyessä ohjelmistoissa ohjelmistokehityksessä tarvitaan uusia käytänteitä tukemaan mallien kehityksen tuomia uusia työvaiheita. Koneoppimismallien kehityksessä oleellisessa osassa on opetukseen käytetty data ja mallien opettamistarpeen havainnointi. Useamman mallin hyödyntäminen ohjelmistossa monimutkaistaa ohjelmiston kehitystä ja mallien toiminnan havainnointia, esimerkiksi opetustarpeen päättelyä. Jäljitettävyyden ja toistettavuuden merkitys korostuu, kun mukana on koneoppimismalleja ja niiden mukanaan tuomia uusia työvaiheita. Tässä työssä tarkastellaan miten koneoppimismallien hyödyntäminen ohjelmistoissa vaikuttaa ohjelmistonkehityksen työnkulkuun. Pyritään selvittämään minkälaisia vaatimuksia koneoppimismallien mukaantulo asettaa jatkuvan integroinnin ja julkaisun käytänteille ja niitä tukeville CI/CD-järjestelmille. Lähemmin tarkastellaan asetelmaa, jossa kehitettävässä ohjelmistossa on kaksi koneoppimismallia. Pohditaan, miten useamman mallin keskinäinen toiminta sujuu ja minkälaisia vaikutuksia mallien vuorovaikutuksella on esimerkiksi mallien opettamiseen ja opetustarpeen päättelyyn.
  • Hautala, Anni (Helsingin yliopisto, 2020)
    Tekoälyä ja koneoppimista hyödynnetään yhä useammilla tieteen ja liike-elämän aloilla ja tekoälyteknologioiden kehittyessä niiden käyttämisestä tulee yhä helpompaa ja yleisempää. Koneoppimisessa käytettävissä malleissa on taustalla paljon erilaista matematiikkaa ja tilastotiedettä. Menetelmien syvällinen ymmärtäminen ja soveltaminen vaatii ymmärrystä taustalla olevista matemaattisista rajoitteista ja sovellusmahdollisuuksista. Tässä tutkielmassa tarkastellaan koneoppimisen matemaattista perustaa. Työ on jaettu kahteen osaan. Ensimmäisessä osassa esitellään muutamia koneoppimisessa tarvittavia matematiikan osa-alueita, joita tarvitaan koneoppimisessa: lineaarialgebran ja matriisilaskennan sekä todennäköisyyslaskennan perusteita. Tämä osa toimii johdantona tai kertausmateriaalina kyseisiin matematiikan osa-alueisiin. Työn toisessa osassa esitellään yleisesti koneoppimisen peruskäsitteitä ja muotoillaan koneoppimisprosessia matemaattisesti. Sitten käydään läpi kaksi koneoppimismenetelmää, lineaarinen regressioanalyysi ja pääkomponenttianalyysi (PCA). Molemmista menetelmistä esitetään perusperiaate, matemaattista taustaa ja käytännön esimerkkejä Python-ohjelmointikielellä. Tutkielma perustuu kirjallisuuskatsaukseen.
  • Pihlapuro, Aki (Helsingin yliopisto, 2020)
    Tavoitteet: Tutkimuksen tavoitteena oli selvittää, pystytäänkö koneoppimisen avulla luomaan ennustetyökalu, joka auttaa tunnistamaan lasten seksuaaliseen hyväksikäyttöön liittyviä tekijöitä ja joka pystyy luotettavasti arvioimaan seksuaalisen hyväksikäytön todennäköisyyttä. Suoriutumiseltaan kyvykästä tilastollista työkalua voidaan käyttää seksuaalisen hyväksikäytön selvitystyössä ja koulutuksessa. Menetelmät: Tilastollisen työkalun luomisessa käytettiin vuonna 2013 kerättyä Lapsiuhritutkimuksen aineistoa. Aineisto sisälsi 10665 10-17- vuotiaan lapsen ja nuoren vastaukset 52 eri kysymyksestä. Tilastollisena menetelmänä käytettiin luokittelu- ja regressiopuuta (CART) ennustetyökalun rakentamisessa. Tilastollisen työkalun suoriutumista arvioitiin sensitiivisyyden, spesifisyyden, AUC:n ja Brierin pisteiden avulla. Tulokset: Lasten seksuaalisen hyväksikäytön todennäköisyyttä ennustavia päätöspuita onnistuttiin luomaan useissa eri aineiston osajoukoissa. Seksuaalisen hyväksikäytön luokitteluun tunnistettiin ydinkysymyksiä, jotka liittyivät lapsen lähiympäristöön, fyysisen kypsymisen vaikutuksiin, aikaisempiin uhrikokemuksiin sekä mielenterveyden ja käyttäytymisen oireiluun. Tilastollisen ennustetyökalun suoriutuminen todettiin olevan arvausta parempi, mutta luokittelijana epätarkka. Johtopäätökset: Tutkimuksen avulla löydettiin seksuaaliseen hyväksikäyttöön liittyviä ydinkysymyksiä, jotka tukivat aiempien tutkimusten löydöksiä. Tilastollisen ennustetyökalun suoriutuminen todettiin olevan riittämättömällä tasolla siihen nähden, että työkalu olisi valmis otettavaksi käyttöön sellaisenaan. Jatkotutkimusta tarvitaan niin vaihtoehtoisten tilastollisten menetelmien soveltuvuudesta kuin erilaisten aineistojen käytöstä.
  • Chumachenko, Kateryna; Männistö, Anssi; Iosifidis, Alexandros; Raitoharju, Jenni (IEEE, 2020)
    IEEE Access 8 (2020)
    In this paper, we demonstrate the benefits of using state-of-the-art machine learning methods in the analysis of historical photo archives. Specifically, we analyze prominent Finnish World War II photographers, who have captured high numbers of photographs in the publicly available Finnish Wartime Photograph Archive, which contains 160,000 photographs from Finnish Winter, Continuation, and Lapland Wars captures in 1939-1945. We were able to find some special characteristics for different photographers in terms of their typical photo content and framing (e.g., close-ups vs. overall shots, number of people). Furthermore, we managed to train a neural network that can successfully recognize the photographer from some of the photos, which shows that such photos are indeed characteristic for certain photographers. We further analyzed the similarities and differences between the photographers using the features extracted from the photographer classifier network. We make our annotations and analysis pipeline publicly available, in an effort to introduce this new research problem to the machine learning and computer vision communities and facilitate future research in historical and societal studies over the photo archives.
  • Huttunen, Mika (Helsingin yliopisto, 2021)
    Arvopaperin tulevan hinnanmuodostuksen ennustaminen on mielenkiintoista niin sijoittajan kuin aktiivisesti kauppaa tekevän markkinatoimijan näkökulmasta. Tarpeeksi hyvällä tarkkuudella arvopaperin tulevaa hinnanmuodostusta ennustamalla voi markkinatoimija ostaa arvopaperia ennen sen mahdollista markkinahinnan nousua, tai suojata salkkuaan sitä jo omistaessaan, mikäli on vaara, että arvopaperin markkinahinta laskee ajan mittaan merkittävästi. Tutkielmassani käsittelen koneoppimisen soveltamista tekniseen analyysiin. Tutkin, voidaanko tekniseen analyysiin pohjautuen markkinan tai arvopaperin tulevaa hinnanmuodostusta ennustaa lyhyellä aikavälillä tarpeeksi hyvällä tarkkuudella. Selvitän arvopaperimarkkinoiden toimintaa ja käyn läpi, miten tarkasteltavan markkinan tulevaa kysynnän ja tarjonnan suhdetta voidaan teknistä analyysiä hyödyntäen pyrkiä ennustamaan. Taustoitan myös omassa tutkimuksessa käyttämieni teknisen analyysin indikaattorien sekä koneoppimisen menetelmien toimintaa ja esitän aiempaa tutkimusta ongelman parissa. Havaitsin, että markkinoiden tulevan hinnanmuodostuksen ennustaminen on haastavaa. Käyttämilläni ohjatun oppimisen menetelmillä en onnistunut generoimaan mallia, joka olisi osannut ennustaa S&P 500-osakeindeksille, onko tarkasteltavaa ajanhetkeä seuraavan lyhyen aikavälin päätteeksi markkinahinta korkeammalla vai enintään yhtä korkealla kuin tarkasteluajankohtana. Opetetut mallit saavuttivat parhaimmillaan vain 50.8 − 51.4 % ennustetarkkuuden, kun taas naiivi luokittelija, joka ennustaa jokaisen aikavälin päätteeksi markkinahinnan kohonneen saavuttaa 53.0 %:n tarkkuuden. Vehnäfutuurisopimusmarkkinalle saamani tulokset olivat lupaavampia ja opetetut mallit saavuttivat edellä mainitun ongelmanratkaisuun parhaimmillaan 51.7 − 52.5 % ennustetarkkuuden, joka ylitti naiivin luokittelijan 50.9 % tarkkuuden. Analysoin saamiani tuloksia ja esitin jatkotutkimusmahdollisuuksia mallien tehostamiseksi.
  • Sohrab, Fahad; Raitoharju, Jenni; Iosifidis, Alexandros; Gabbouj, Moncef (Elsevier, 2021)
    Pattern Recognition 110
    In this paper, we propose a novel method for projecting data from multiple modalities to a new subspace optimized for one-class classification. The proposed method iteratively transforms the data from the original feature space of each modality to a new common feature space along with finding a joint compact description of data coming from all the modalities. For data in each modality, we define a separate transformation to map the data from the corresponding feature space to the new optimized subspace by exploiting the available information from the class of interest only. We also propose different regularization strategies for the proposed method and provide both linear and non-linear formulations. The proposed Multimodal Subspace Support Vector Data Description outperforms all the competing methods using data from a single modality or fusing data from all modalities in four out of five datasets.
  • Saada, Adam (Helsingin yliopisto, 2018)
    Logistic regression has been the most common credit scoring model for several decades. The purpose of a credit scoring model is to distinguish good applicants from bad applicants so that the consumer credit can be lent to a person who is likely to repay it. In Finland, households' indebtedness has increased while wage development has stagnated. In addition to mortgage, indebtedness has increased because of the rising number of consumer credit loans. Consumer credit is usually unsecured loans, which are provided by several financial institutions quickly and flexible. Consumer credit is considered to be one of the major causes of default. Systematic risks are still being avoided for now, but the increased number of customers and the fierce competition in the sector can bring new risks that should be anticipated, as insolvent customers are making losses to financial institutions. Developing and deploying new credit scoring models is one of the best ways to hedge against default risks. The prediction accuracy and performance of tree-based credit scoring models have been studied. In many cases, tree-based algorithms have performed better than traditional statistical models such as the earlier mentioned logistic regression. In this master's thesis classical logistic regression is compared to these tree-based algorithms. The most well-known tree-based algorithms have been chosen, which are random forest, discrete Adaboost, real Adaboost, LogitBoost, Gentle Adaboost and Gradient Boosting. These methods use the tree algorithm as the base learner but differ in their iterative processes. The data that has been gathered from a Finnish medium-sized financial company, consists of customer's personal information and their payment behavior of sales finance. It is important to compare how different models predict insolvency in the light of different test statistics. In this thesis, the best-performing models are logistic regression and the Gradient Boosting algorithm. From my research's point of view, it is recommended to develop a credit scoring model based on the Gradient Boosting algorithm. This algorithm discloses different explanatory variables compared to logistic regression. These variables can explain better the causes of insolvency. The results are robust and plausible, because the different tests give similar conclusions.
  • Kämäräinen, Emma (Helsingin yliopisto, 2018)
    Tässä työssä aiheena oleva mobiilipuhelimien käyttöiän mallintaminen ja ennustaminen on osa teleoperaattori DNA Oyj:n laitemallia. Laitemalliin kuuluu asiakkaan seuraavan puhelinlaitteen ostoajanhetken, hinnan ja valmistajan ennustaminen. Ostoajanhetken arviointi on olennainen tieto yrityksille, jotka myyvät mobiililaitteita, sillä sen avulla voidaan ajoittaa laitesuositteluja sekä tehdä asiakkaalle ajankohtaisia toimenpiteitä. Käyttöiän mallintamista varten haettiin aineisto DNA Oyj:n tietokannasta, jota jatkojalostettiin mallinnukseen sopivaksi. Aineistoa kertyy koko ajan lisää, jonka takia mallinnuksessa käytetty aineisto muuttuu jopa päivittäin. Laitemallia ajetaan DNA Oyj:n tuotantoympäristössä ja sen tulokset ovat operatiivisessa käytössä. Tutkielmani alussa esittelen mallinnuksessa käytettävän satunnainen metsä-algoritmin, joka on päätöspuiden kokoelmaan perustuva menetelmä. Ensin kerron hieman algoritmin historiasta ja sen teoreettisesta taustasta. Algoritmin toiminnan ymmärtämiseksi esittelen myös muita koneoppimisen menetelmiä, jotka ovat oleellinen osa algoritmia. Satunnainen metsä- menetelmässä on monia hyviä ominaisuuksia, joita täsmennän teoriaosuuden yhteydessä. Menetelmän suorituksen yhteydessä voidaan esimerkiksi laskea selittäville muuttujille niiden tärkeys mallinnuksessa. Algoritmin teorian esittelyn jälkeen määrittelen vielä muutamia metriikoita, joita käytän mallinnusvaiheessa tulosten analysoinnissa ja validoinnissa. Seuraavaksi kuvailen työssä käytetyn aineiston. Aineiston hakuja tehtiin kaksi, joista toinen on mallin koulutusaineistoa varten ja toinen on aineisto, jolle lopulliset ennusteet muodostetaan. Aineistoissa on paljon muuttujia, joten esittelen ne kahdessa osassa. Ensin kerron laitteeseen liittyvät ominaisuudet ja sen jälkeen asiakkaaseen liittyvät tiedot. Laitteiden ostopäivätiedoista saatiin selville mallinnuksen selitettävä muuttuja, puhelimen käyttöaika, joka luokiteltiin kolmen kuukauden tarkkuudella. Ostopäivän lisäksi puhelinlaitteesta on tiedossa monenlaisia teknisiä ominaisuuksia, muun muassa laitteen käyttöjärjestelmä sekä 4G- kyvykkyys. Asiakkaan tiedoista mallinnuksessa käytettiin demografisia tietoja, kuten sukupuolta ja ikää. Lisäksi hyödynnettiin asiakkaan ilmoittaman osoitetiedon perustella määriteltyä laajakaistasaatavuutta ja mobiilidatan käyttöön liittyviä muuttujia. Aineiston esittelyn jälkeen kerron varsinaisesta mallinnuksesta. Mallinnuksen yhteydessä tutkin eri parametrien vaikutusta ennustetuloksiin. Optimaalisten parametrien avulla luotiin luokkaennusteet mobiililaitteiden käyttöiälle. Eräs satunnainen metsä- algoritmin ominaisuus liittyy siihen, että menetelmän suorituksen yhteydessä pystytään arvioimaan sen tuottamia tuloksia aineistolle, jota menetelmä ei ole käyttänyt kyseisellä suorituskerralla mallin rakentamiseen. Arviointiin käytettiin luokittelumenetelmiin sopivia metriikoita, joiden perusteella algoritmi ennustaa onnistuneesti suuren osan aineistosta. Parametrien määrittämisen ja mallin kouluttamisen jälkeen muodostettiin luokat ennusteaineistolle. Lopullisten ennusteiden paikkansapitävyyttä ei voida arvioida, ennen kuin asiakas ostaa uuden puhelimen. Joissakin tapauksissa vaihtoon voi mennä useampi vuosi. Päätän opinnäytetyöni arvioimalla menetelmän toimivuutta ja pohtimalla laitevaihdon taustalla olevia muuttujia. Vaikka työssä oli käytössä rikas aineisto, puhelinvaihdon luultavasti yleisintä syytä eli laitteen vikatilannetta ei ollut saatavilla työn tekohetkellä. Laitevaihdon syihin perustuvan aineiston lisääminen parantaisi mallinnuksen tuloksia entisestään. Lopussa pohdin myös tuotannossa ajettavan, päivittäin muuttuvan mallinnuksen haasteita. Eräs mallinnuksen tuloksiin vaikuttava tekijä on muuttumattomat parametrit, jotka aineiston muuttuessa eivät välttämättä tuota enää parhaita ennustetuloksia. Laitemallia aiotaan kehittää entistä paremmaksi DNA Oyj:llä.