Projecting named entity recognizers from resource-rich to resource-poor languages without annotated or parallel corpora

Näytä kaikki kuvailutiedot



Pysyväisosoite

http://urn.fi/URN:NBN:fi:hulib-202001211120
Julkaisun nimi: Projecting named entity recognizers from resource-rich to resource-poor languages without annotated or parallel corpora
Tekijä: Hou, Jue
Muu tekijä: Helsingin yliopisto, Matemaattis-luonnontieteellinen tiedekunta
Julkaisija: Helsingin yliopisto
Päiväys: 2019
Kieli: eng
URI: http://urn.fi/URN:NBN:fi:hulib-202001211120
http://hdl.handle.net/10138/310012
Opinnäytteen taso: pro gradu -tutkielmat
Oppiaine: Tietojenkäsittelytiede
Tiivistelmä: Named entity recognition is a challenging task in the field of NLP. As other machine learning problems, it requires a large amount of data for training a workable model. It is still a problem for languages such as Finnish due to the lack of data in linguistic resources. In this thesis, I propose an approach to automatic annotation in Finnish with limited linguistic rules and data of resource-rich language, English, as reference. Training with BiLSTM-CRF model, the preliminary result shows that automatic annotation can produce annotated instances with high accuracy and the model can achieve good performance for Finnish. In addition to automatic annotation and NER model training, to show the actual application of my Finnish NER model, two related experiments are conducted and discussed at the end of my thesis.


Tiedostot

Latausmäärä yhteensä: Ladataan...

Tiedosto(t) Koko Formaatti Näytä
Jue_Hou-Master_s_Thesis-v2.1.pdf 1.067MB PDF Avaa tiedosto

Viite kuuluu kokoelmiin:

Näytä kaikki kuvailutiedot