Tekstin kielen automaattinen tunnistaminen

Show full item record

Permalink

http://urn.fi/URN:NBN:fi-fe201012223157
Title: Tekstin kielen automaattinen tunnistaminen
Author: Jauhiainen, Tommi
Contributor: University of Helsinki, Faculty of Arts, Department of Modern Languages
Publisher: Helsingfors universitet
Date: 2010
URI: http://urn.fi/URN:NBN:fi-fe201012223157
http://hdl.handle.net/10138/24280
Thesis level: master's thesis
Abstract: Tutkielman aiheena on kirjoitetun digitaalisessa muodossa olevan tekstin kielen automaattinen tunnistaminen. Tekstin kieli on usein tarpeellista identifioida, jotta tekstin jatkokäsittelyssä osataan toimia käyttäen oikeita menetelmiä. Tekstin kielen automaattinen tunnistaminen on internetissä olevan tekstimäärän ja kielivalikoiman kasvaessa tullut tärkeäksi näiden dokumenttien automaattisen käsittelyn esivaiheeksi. Kielen tunnistaminen on kieleltään tuntemattoman tekstin vertaamista joukkoon annettuja kieliä. Samoja tai hyvin läheisiä menetelmiä voidaan käyttää myös tekstin lajitteluun esimerkiksi aihealueiden suhteen. Tässä tutkielmassa esitellään tutkielmaa varten rakennetun kielentunnistimen kehitysvaiheet sekä sen suorituskyvyn evaluointia. Aluksi tutkielmassa paneudutaan muutamaan eri kielentunnistamisen menetelmään, sekä esitellään myös eräiden toteutettujen kielentunnistinten rakennetta niistä kirjoitettujen artikkelien perusteella. Tämän jälkeen tutkielmassa kerrotaan kuinka kielentunnistimen rakentamiseen luotiin harjoituskorpuksia. Harjoituskorpukset luotiin Wikipedian artikkeleista yhteensä 103 kielelle. Eri kielten harjoituskorpusten yhteenlasketuksi kooksi tuli yli miljardi sanetta. Jokaisesta harjoituskorpuksesta luotiin 7 kielimallia kullekin kielelle. Kielimallit ovat kielten sanojen n-grammien (yhdestä kuuteen) listoja sekä listoja kielten koko-naisista sananmuodoista. Harjoituskorpuksista luotuja kielimalleja ja muutamia eri menetelmiä yhdistelemällä rakennettiin useita erilaisia kielentunnistimia, joiden suoriutumista vertailtiin keskenään laajojen testitunnistusten avulla. Testien suorittamista varten muodostettiin Europarl-korpuksesta noin 200 miljoonan sanan testikorpuksia kymmenelle eurooppalaiselle kielelle. Testitunnistuksia tehtiin automatisoidusti useita miljoonia. Näiden testien tulosten perusteella päädyttiin kielentunnistimeen, joka käyttää hyväkseen kaikkia kielimalleja sekä kahta eri menetelmää. Tutkielmassa kehitetyn kielentunnistimen suoriutumista vertailtiin vielä joidenkin artikkeleissa esiteltyjen kielentunnistimien suoriutumiseen ja lopuksi tutkielmassa esitellään mahdollisuuksia tunnistimen jatkokehittämiseen.
Rights: Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden.
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.


Files in this item

Total number of downloads: Loading...

Files Size Format View
tekstink.pdf 1.497Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record