Suomalais-ugrilaiset kielet ja internet -projekti 2013-2019

Show full item record



Permalink

http://hdl.handle.net/10138/327795
Title: Suomalais-ugrilaiset kielet ja internet -projekti 2013-2019
Author: Jauhiainen, Tommi; Jauhiainen, Heidi; Lindén, Krister
Date: 2021
Language: fi
URI: http://hdl.handle.net/10138/327795
Abstract: Tässä artikkelissa esittelemme vuonna 2013 aloittaneen ja 2019 päättyneen Koneen säätiön rahoittaman Suomalais-ugrilaiset kielet ja internet projektin suunnittelua sekä toteutusta ja kokoamme yhteen saavutettuja tuloksia. Aikaisemmin julkaistujen valmiiden tulosten lisäksi esittelemme myös joitakin keskeneräisiksi jääneitä tuotoksia. Projektissa kerättiin verkkoharavoinnin ja automaattisen kielentunnistuksen avulla harvinaisilla uralilaisilla kielillä kirjoitettujen sivujen tekstiä avoimilta verkkosivuilta. Projektissa kehitetty Wanca-portaalisivusto toimii kokoelmana linkkejä haravoinnin yhteydessä löydetyille näitä kieliä käyttäen kirjoitetuille sivuille. Projektissa kehitettiin prosessi, jota käyttäen verkkoharavan avulla löydetyistä teksteistä muodostetaan virkekorpuksia halutuille kielille. Muodostetut virkekorpukset ovat avoimesti saatavilla FIN-CLARIN konsortion ylläpitämän Kielipankin Korp-palvelussa. Verkkoharavoinnin ja korpusten kokoamisen ohella projekti keskittyi erityisesti kielentunnistuksen menetelmien kehittämiseen, jossa saavutettiin kansainvälisesti erittäin merkittäviä tuloksia. Projektin tutkijat ovat osallistuneet kansainvälisiin tekstin kielentunnistukseen keskittyneisiin kilpailuihin ja voittaneet niistä useita.
Subject: Verkkoharavointi
Kielentunnistus
Uralilaiset kielet.
Rights: CC BY 4.0
https://creativecommons.org/licenses/by/4.0/deed.fi


Files in this item

Total number of downloads: Loading...

Files Size Format View
21_Jauhiainen_Multilingual_Facilitation.pdf 148.2Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record

CC BY 4.0 Except where otherwise noted, this item's license is described as CC BY 4.0