Browsing by Subject "support vector machine"

Sort by: Order: Results:

Now showing items 1-5 of 5
  • Montazeri Moghadam, Saeed; Pinchefsky, Elana; Tse, Ilse; Marchi, Viviana; Kohonen, Jukka; Kauppila, Minna; Airaksinen, Manu; Tapani, Karoliina; Nevalainen, Päivi; Hahn, Cecil; W. Y. Tam, Emily; Stevenson, Nathan J.; Vanhatalo, Sampsa (2021)
    Neonatal brain monitoring in the neonatal intensive care units (NICU) requires a continuous review of the spontaneous cortical activity, i.e., the electroencephalograph (EEG) background activity. This needs development of bedside methods for an automated assessment of the EEG background activity. In this paper, we present development of the key components of a neonatal EEG background classifier, starting from the visual background scoring to classifier design, and finally to possible bedside visualization of the classifier results. A dataset with 13,200 5-minute EEG epochs (8–16 channels) from 27 infants with birth asphyxia was used for classifier training after scoring by two independent experts. We tested three classifier designs based on 98 computational features, and their performance was assessed with respect to scoring system, pre- and post-processing of labels and outputs, choice of channels, and visualization in monitor displays. The optimal solution achieved an overall classification accuracy of 97% with a range across subjects of 81–100%. We identified a set of 23 features that make the classifier highly robust to the choice of channels and missing data due to artefact rejection. Our results showed that an automated bedside classifier of EEG background is achievable, and we publish the full classifier algorithm to allow further clinical replication and validation studies.
  • Kajava, Kaisla (Helsingin yliopisto, 2018)
    Sentimenttianalyysi (sentiment analysis) on nopeasti kehittyvä kieliteknologian ala, jonka päämääränä on automaattisesti tunnistaa luonnollisella kielellä tuotetusta tekstistä subjektiivisia piirteitä. Tyypillisesti sentimenttianalyysissa luokitellaan tekstiä binäärisesti luokkiin ‘positiivinen’ tai ‘negatiivinen’. Moniluokkainen tunneskaala saadaan kuitenkin kasvattamalla mahdollisten sentimenttiluokkien määrää, jolloin mukaan otetaan hienojakoisempia tunteita kuten ‘vihainen’, ‘iloinen’ ja ‘surullinen’. Tekstiklassifikaatiossa käytetään usein ohjattuja koneoppimismenetelmiä. Tämä edellyttää riittävää opetusaineistoa, jonka avulla klassifikaatioalgoritmi voidaan opettaa tunnistamaan tekstistä haluttuja piirteitä. Koska sentimenttianalyysiin tarvittavat opetusaineistot ovat pääosin englanninkielisiä, muunkielisiä aineistoja tuotetaan kääntämällä alkuperäinen aineisto eri kielille. On kuitenkin tärkeää arvioida käännetyn aineiston käytettävyyttä koneoppimisalgoritmien opetuksessa. Kun teksti käännetään kieleltä toiselle, tulee alkuperäisen sentimentti-informaation säilyä ennallaan, jotta tekstiä voidaan luotettavasti käyttää algoritmien opettamiseen. Mikäli sentimentti-informaatio säilyy hyvin käännetyssä tekstissä, kieltenvälisiä sentimenttiaineistoja voidaan koota siirto-oppimismenetelmillä (transfer learning) eli projisoimalla alkuperäiskielisten virkkeiden sentimenttiluokat käännetyille virkkeille. Tämä pro gradu -tutkimus arvioi, missä määrin luonnollisen kielen binäärinen ja moniluokkainen sentimentti-informaatio säilyy samana, kun teksti käännetään kieleltä toiselle. Tutkimusaineistona käytetään paralleeleja virkkeitä alkuperäiskielellä englanniksi sekä käännöksinä suomeksi, ranskaksi ja italiaksi. Sentimentti-informaation säilymistä tutkitaan annotoimalla ensin englanninkieliset virkkeet siten, että tuloksena on sekä binäärinen että moniluokkainen aineisto, jossa kullakin virkkeellä on yksi sentimenttiluokka. Tämän jälkeen kunkin käännetyn kielen paralleelit virkkeet annotoi kaksi erillistä annotoijaa, mistä saadaan vertailukohde alkuperäisille englanninkielille annotaatioille. Lisäksi tutkimus arvioi siirto-oppimismenetelmien hyödyllisyyttä tutkimalla, saavuttavatko koneoppimisalgoritmit samankaltaisia tuloksia käännetyillä aineistoilla, jotka on koottu projisoimalla alkuperäisten aineistojen annotaatiot käännetyille virkkeille, kuin alkuperäisillä englanninkielisillä aineistoilla. Sentimenttiklassifikaatiossa käytetään naiivi Bayes (naïve Bayes), maksimientropia (maximum entropy), monikerroksinen perseptroni (multilayer perceptron) ja tukivektorikone (support vector machine) -klassifikaattoreita. Tutkimustulokset osoittavat, että luonnollisen kielen tekstejä käännettäessä sentimentti-informaatio säilyy hyvin. Tämän perusteella voidaan päätellä, että kieltenvälinen siirto-oppiminen on tarpeeksi luotettava tapa opettaa sentimenttianalyysialgoritmeja. Klassifikaatiotulokset puolestaan osoittavat, että siirto-oppimismenetelmällä opetetut algoritmit saavuttavat luotettavia tuloksia binäärisessä klassifikaatiossa, kun taas vakaa moniluokkainen klassifikaatio vaatii suurempaa aineistoa.
  • Tomppo, Erkki; Ronoud, Ghasem; Antropov, Oleg; Hytonen, Harri; Praks, Jaan (2021)
    The purpose of this study was to develop methods to localize forest windstorm damages, assess their severity and estimate the total damaged area using space-borne SAR data. The development of the methods is the first step towards an operational system for near-real-time windstorm damage monitoring, with a latency of only a few days after the storm event in the best case. Windstorm detection using SAR data is not trivial, particularly at C-band. It can be expected that a large-area and severe windstorm damage may affect backscatter similar to clear cutting operation, that is, decrease the backscatter intensity, while a small area damage may increase the backscatter of the neighboring area, due to various scattering mechanisms. The remaining debris and temporal variation in the weather conditions and possible freeze-thaw transitions also affect observed backscatter changes. Three candidate windstorm detection methods were suggested, based on the improved k-nn method, multinomial logistic regression and support vector machine classification. The approaches use multitemporal ESA Sentinel-1 C-band SAR data and were evaluated in Southern Finland using wind damage data from the summer 2017, together with 27 Sentinel-1 scenes acquired in 2017 and other geo-referenced data. The stands correctly predicted severity category corresponded to 79% of the number of the stands in the validation data, and already 75% when only one Sentinel-1 scene after the damage was used. Thus, the damaged forests can potentially be localized with proposed tools within less than one week after the storm damage. In this study, the achieved latency was only two days. Our preliminary results also indicate that the damages can be localized even without separate training data.
  • Huong Thi Thanh Nguyen; Trung Minh Doan; Tomppo, Erkki; McRoberts, Ronald E. (2020)
    Information on land use and land cover (LULC) including forest cover is important for the development of strategies for land planning and management. Satellite remotely sensed data of varying resolutions have been an unmatched source of such information that can be used to produce estimates with a greater degree of confidence than traditional inventory estimates. However, use of these data has always been a challenge in tropical regions owing to the complexity of the biophysical environment, clouds, and haze, and atmospheric moisture content, all of which impede accurate LULC classification. We tested a parametric classifier (logistic regression) and three non-parametric machine learning classifiers (improved k-nearest neighbors, random forests, and support vector machine) for classification of multi-temporal Sentinel 2 satellite imagery into LULC categories in Dak Nong province, Vietnam. A total of 446 images, 235 from the year 2017 and 211 from the year 2018, were pre-processed to gain high quality images for mapping LULC in the 6516 km(2) study area. The Sentinel 2 images were tested and classified separately for four temporal periods: (i) dry season, (ii) rainy season, (iii) the entirety of the year 2017, and (iv) the combination of dry and rainy seasons. Eleven different LULC classes were discriminated of which five were forest classes. For each combination of temporal image set and classifier, a confusion matrix was constructed using independent reference data and pixel classifications, and the area on the ground of each class was estimated. For overall temporal periods and classifiers, overall accuracy ranged from 63.9% to 80.3%, and the Kappa coefficient ranged from 0.611 to 0.813. Area estimates for individual classes ranged from 70 km(2) (1% of the study area) to 2200 km(2) (34% of the study area) with greater uncertainties for smaller classes.
  • Räty, Matti (Helsingin yliopisto, 2020)
    SQL kuuluu suositeltujen oppiaineiden joukkoon tietojenkäsittelytieteestä. Se on tehokas tapa varastoida dataa kontekstista riippumatta. SQL on kuitenkin opittavana aiheena opiskelijoilleen vaikea, ja tämän vuoksi SQL-opetuksen rinnalla käytetään opetusohjelmistoja. Opetusohjelmistojen avulla SQL:ää päästään opettelemaan käytännössä, paikataan suurta oppilaiden määrää opettajien määrään nähden, ja kerätään aineistoa opiskelijoiden suoriutumisesta. Oppimisohjelmistojen keräämä aineisto oppilaiden suoriutumisesta tarjoaa mahdollisuuden ennustaa opiskelijoiden suoriutumista kurssilla koneoppimismenetelmin. Tämä tutkielma kouluttaa SQL-opetusohjelmiston aineistoilla hyväksi todettuja koneoppimisalgoritmeja malleiksi, jotka osaavat ennustaa osaako opiskelija seuraavalla yrityksellään SQL-harjoitustehtävän oikein. Kyseessä ei ole tehdä mallia joka osaisi tarkastaa SQL-tehtäviä, vaan tarkoituksena on antaa koneoppimisalgoritmien tarkkailla opiskelijoilta muita kerättyjä tilastoja tehtäväyrityksen oikeellisuuden arvioimiseen ilman itse oppilaan antamaa ratkaisua. Tutkielmassa huomataan useiden koneoppimismallien olevan toimivia tämän tavoitteen saavuttamiseksi. Vastaavia koneoppimismalleja voidaan hyödyntää oppilaiden löytämisessä, joilla on vaikeuksia tehtävien tekemisessä. Tämä tieto on arvokasta esimerkiksi opetusohjelmistoille, jotka pyrkivät antamaan SQL-tehtävien tekijöille vihjeitä hyödylliseen aikaan.