Title: | Suomenkielisten lehtiartikkelien luokittelu |
Author: | Silvonen, Mikko |
Other contributor: |
Helsingin yliopisto, Matemaattis-luonnontieteellinen tiedekunta, Tietojenkäsittelytieteen laitos
University of Helsinki, Faculty of Science, Department of Computer Science Helsingfors universitet, Matematisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap |
Publisher: | Helsingfors universitet |
Date: | 1998 |
Language: | fin |
URI: |
http://urn.fi/URN:NBN:fi-fe20021348
http://hdl.handle.net/10138/21406 |
Thesis level: | master's thesis |
Abstract: | Dokumenttien luokittelua eli tekstin aihepiirin automaattista tunnistusta on aikaisemmin sovellettu pääasiassa englanninkielisiin dokumentteihin. Tutkimuksen tarkoituksena oli mahdollistaa suomenkielisiä lehtiartikkeleita luokittelevan ohjelman kehittäminen. Tutkielma alkaa lyhyellä katsauksella aikaisempaan tutkimukseen. Pääaiheena on kolmen ohjattuun oppimiseen perustuvan luokittelualgoritmin (naiivin Bayesin luokittimen, tasapainotetun Winnow+:n ja assosiaatiosääntöjen) vertailu Helsingin Sanomien aineiston avulla. Dokumenttien esikäsittelyyn ja luokittelupiirteiden valintaan käytetään FINCG-nimistä suomen kielen jäsennysohjelmaa. Parhaiten toimivaksi vaihtoehdoksi osoittautui perusmuotoon palautettuja substantiiveja käyttävä naiivi Bayesin luokitin. |
Subject: |
dokumenttien luokittelu
naiivi Bayesin luokitin Winnow assosiaatiosäännöt suomen kieli |
Rights: | This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. |
Total number of downloads: Loading...
Files | Size | Format | View |
---|---|---|---|
suomenki.pdf | 980.1Kb |
View/ |
|
tiiviste.pdf | 95.19Kb |
View/ |