Out of vocabulary guesser : Swahili

Näytä kaikki kuvailutiedot



Pysyväisosoite

http://hdl.handle.net/10138/317509

Lähdeviite

Hurskainen , A 2020 ' Out of vocabulary guesser : Swahili ' Technical reports on language technology , no. 53 , University of Helsinki, Institute for Asian and African Studies , Helsinki . < http://www.njas.helsinki.fi/salama/out-of-vocabulary-guesser-swahili.pdf >

Julkaisun nimi: Out of vocabulary guesser : Swahili
Tekijä: Hurskainen, Arvi
Tekijän organisaatio: Department of Languages
Julkaisija: University of Helsinki, Institute for Asian and African Studies
Päiväys: 2020
Kieli: eng
Sivumäärä: 13
Kuuluu julkaisusarjaan: Technical reports on language technology
ISSN: 2670-1391
URI: http://hdl.handle.net/10138/317509
Tiivistelmä: Free texts include also such words, which are not listed in the analysis system. Yet they need to be treated as part of the vocabulary, so that the unknown elements in text do not unnecessarily disturb the translation process. They cannot be fully treated as the known lexical items, but if we know some basic propertied of the words, we can figure out the structure of the sentence kore precisely. Traditionally, the heuristic guessing of such unknown words was done on the basis of the morphological form of the word only. In this report it is suggested that the unknown words should be treated in two phases. First, we give a tentative assignment of the word in the word-level guesser. In the second phase we test the assignment in context. The first assignment may have two or more assignment candidates, and in the second phase we test which one is the correct one in the context.
Avainsanat: 6121 Languages
Tekijänoikeustiedot: cc_by_nc
Pääsyrajoitteet: openAccess
Rinnakkaistallennettu versio: publishedVersion


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
out_of_vocabulary_guesser_swahili.pdf 440.8KB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot