Drobac , S , Kauppinen , P S & Linden , B K J 2017 , OCR and post-correction of historical Finnish texts . in J Tiedemann (ed.) , Proceedings of the 21st Nordic Conference on Computational Linguistics, NoDaLiDa, 22-24 May 2017, Gothenburg, Sweden . Linköping Electronic Conference Proceedings , no. 131 , Linköping University Electronic Press , Linköping , pp. 70-76 , Nordic Conference of Computational Linguistics , Gothenburg , Sweden , 22/05/2017 . < http://www.ep.liu.se/ecp/131/ecp17131.pdf >
Julkaisun nimi: | OCR and post-correction of historical Finnish texts |
Tekijä: | Drobac, Senka; Kauppinen, Pekka Sakari; Linden, Bo Krister Johan |
Muu tekijä: | Tiedemann, Jörg |
Tekijän organisaatio: | Department of Modern Languages 2010-2017 Language Technology |
Julkaisija: | Linköping University Electronic Press |
Päiväys: | 2017 |
Kieli: | eng |
Sivumäärä: | 7 |
Kuuluu julkaisusarjaan: | Proceedings of the 21st Nordic Conference on Computational Linguistics, NoDaLiDa, 22-24 May 2017, Gothenburg, Sweden |
Kuuluu julkaisusarjaan: | Linköping Electronic Conference Proceedings |
ISBN: | 978-91-7685-601-7 |
ISSN: | 1650-3686 |
URI: | http://hdl.handle.net/10138/229864 |
Tiivistelmä: | This paper presents experiments on Optical character recognition (OCR) as a combination of Ocropy software and data-driven spelling correction that uses Weighted Finite-State Methods. Both model training and testing were done on Finnish corpora of historical newspaper text and the best combination of OCR and post-processing models give 95.21% character recognition accuracy. |
Avainsanat: | 6121 Languages |
Vertaisarvioitu: | Kyllä |
Pääsyrajoitteet: | openAccess |
Rinnakkaistallennettu versio: | publishedVersion |
Latausmäärä yhteensä: Ladataan...
Tiedosto(t) | Koko | Formaatti | Näytä |
---|---|---|---|
W17_0209.pdf | 205.9KB | Avaa tiedosto |