Building Web Corpora for Minority Languages

Näytä kaikki kuvailutiedot



Pysyväisosoite

http://hdl.handle.net/10138/319296

Lähdeviite

Jauhiainen , H , Jauhiainen , T & Linden , K 2020 , Building Web Corpora for Minority Languages . in A Barbaresi , F Bildhauer , R Schäfer & E Stemle (eds) , Proceedings of the 12th Web as Corpus Workshop . The Association for Computational Linguistics , Stroudsburg , pp. 23-32 , Language Resources and Evaluation Conference , 11/05/2020 . < https://www.aclweb.org/anthology/2020.wac-1.4 >

Julkaisun nimi: Building Web Corpora for Minority Languages
Tekijä: Jauhiainen, Heidi; Jauhiainen, Tommi; Linden, Krister
Muu tekijä: Barbaresi, Adrien
Bildhauer, Felix
Schäfer, Roland
Stemle, Egon
Tekijän organisaatio: Language Technology
Department of Digital Humanities
Centre of Excellence in Ancient Near Eastern Empires (ANEE)
Julkaisija: The Association for Computational Linguistics
Päiväys: 2020
Kieli: eng
Sivumäärä: 10
Kuuluu julkaisusarjaan: Proceedings of the 12th Web as Corpus Workshop
ISBN: 979-10-95546-68-9
URI: http://hdl.handle.net/10138/319296
Tiivistelmä: Web corpora creation for minority languages that do not have their own top-level Internet domain is no trivial matter. Web pages in such minority languages often contain text and links to pages in the dominant language of the country. When building corpora in specific languages, one has to decide how and at which stage to make sure the texts gathered are in the desired language. In the {``}Finno-Ugric Languages and the Internet{''} (Suki) project, we created web corpora for Uralic minority languages using web crawling combined with a language identification system in order to identify the language while crawling. In addition, we used language set identification and crowdsourcing before making sentence corpora out of the downloaded texts. In this article, we describe a strategy for collecting textual material from the Internet for minority languages. The strategy is based on the experiences we gained during the Suki project.
Avainsanat: 6121 Languages
Vertaisarvioitu: Kyllä
Tekijänoikeustiedot: cc_by
Pääsyrajoitteet: openAccess
Rinnakkaistallennettu versio: publishedVersion


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
JauhiainenEtAl_BuildingWebCorpora_2020.wac_1.4.pdf 237.4KB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot