OCR and post-correction of historical Finnish texts

Näytä kaikki kuvailutiedot



Pysyväisosoite

http://hdl.handle.net/10138/229864

Lähdeviite

Drobac , S , Kauppinen , P S & Linden , B K J 2017 , OCR and post-correction of historical Finnish texts . in J Tiedemann (ed.) , Proceedings of the 21st Nordic Conference on Computational Linguistics, NoDaLiDa, 22-24 May 2017, Gothenburg, Sweden . Linköping Electronic Conference Proceedings , no. 131 , Linköping University Electronic Press , Linköping , pp. 70-76 , Nordic Conference of Computational Linguistics , Gothenburg , Sweden , 22/05/2017 . < http://www.ep.liu.se/ecp/131/ecp17131.pdf >

Julkaisun nimi: OCR and post-correction of historical Finnish texts
Tekijä: Drobac, Senka; Kauppinen, Pekka Sakari; Linden, Bo Krister Johan
Muu tekijä: Tiedemann, Jörg
Tekijän organisaatio: Department of Modern Languages 2010-2017
Language Technology
Julkaisija: Linköping University Electronic Press
Päiväys: 2017
Kieli: eng
Sivumäärä: 7
Kuuluu julkaisusarjaan: Proceedings of the 21st Nordic Conference on Computational Linguistics, NoDaLiDa, 22-24 May 2017, Gothenburg, Sweden
Kuuluu julkaisusarjaan: Linköping Electronic Conference Proceedings
ISBN: 978-91-7685-601-7
ISSN: 1650-3686
URI: http://hdl.handle.net/10138/229864
Tiivistelmä: This paper presents experiments on Optical character recognition (OCR) as a combination of Ocropy software and data-driven spelling correction that uses Weighted Finite-State Methods. Both model training and testing were done on Finnish corpora of historical newspaper text and the best combination of OCR and post-processing models give 95.21% character recognition accuracy.
Avainsanat: 6121 Languages
Vertaisarvioitu: Kyllä
Pääsyrajoitteet: openAccess
Rinnakkaistallennettu versio: publishedVersion


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
W17_0209.pdf 205.9KB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot