Feature-based Transfer of Multilingual Sentence Representations to Cross-lingual Tasks

Show full item record



Permalink

http://urn.fi/URN:NBN:fi:hulib-202006223367
Title: Feature-based Transfer of Multilingual Sentence Representations to Cross-lingual Tasks
Author: Nyholm, Sabine
Contributor: University of Helsinki, Faculty of Arts
Publisher: Helsingin yliopisto
Date: 2020
Language: eng
URI: http://urn.fi/URN:NBN:fi:hulib-202006223367
http://hdl.handle.net/10138/316803
Thesis level: master's thesis
Degree program: Kielellisen diversiteetin ja digitaalisten menetelmien maisteriohjelma
Master's Programme Linguistic Diversity in the Digital Age
Magisterprogrammet i språklig diversitet och digitala metoder
Specialisation: Kieliteknologia
Language Technology
Språkteknologi
Abstract: Universella meningsrepresentationer och flerspråkig språkmodellering är heta ämnen inom språkteknologi, specifikt området som berör förståelse för naturligt språk (natural language understanding). En meningsinbäddning (sentence embedding) är en numerisk skildring av en följd ord som motsvaras av en hel fras eller mening, speficikt som ett resultat av en omkodare (encoder) inom maskininlärning. Dessa representationer behövs för automatiska uppgifter inom språkteknologi som kräver förståelse för betydelsen av en hel mening, till skillnad från kombinationer av enskilda ords betydelser. Till sådana uppgifter kan räknas till exempel inferens (huruvida ett par satser är logiskt anknutna, natural language inference) samt åsiktsanalys (sentiment analysis). Med universalitet avses kodad betydelse som är tillräckligt allmän för att gynna andra relaterade uppgifter, som till exempel klassificering. Det efterfrågas tydligare samförstånd kring strategier som används för att bedöma kvaliteten på dessa inbäddningar, antingen genom att direkt undersöka deras lingvistiska egenskaper eller genom att använda dem som oberoende variabler (features) i relaterade modeller. På grund av att det är kostsamt att skapa resurser av hög kvalitet och upprätthålla sofistikerade system på alla språk som används i världen finns det även ett stort intresse för uppskalering av moderna system till språk med knappa resurser. Tanken med detta är så kallad överföring (transfer) av kunskap inte bara mellan olika uppgifter, utan även mellan olika språk. Trots att behovet av tvärspråkiga överföringsmetoder erkänns i forskningssamhället är utvärderingsverktyg och riktmärken fortfarande i ett tidigt skede. SentEval är ett existerande verktyg för utvärdering av meningsinbäddningar med speciell betoning på deras universalitet. Syftet med detta avhandlingsprojekt är ett försök att utvidga detta verktyg att stödja samtidig bedömning på nya uppgifter som omfattar flera olika språk. Bedömningssättet bygger på strategin att låta kodade meningar fungera som variabler i så kallade downstream-uppgifter och observera huruvida resultaten förbättras. En modern mångspråkig modell baserad på så kallad transformers-arkitektur utvärderas på en etablerad inferensuppgift såväl som en ny känsloanalyssuppgift (emotion detection), av vilka båda omfattar data på en mängd olika språk. Även om det praktiska genomförandet i stor utsträckning förblev experimentellt rapporteras vissa tentativa resultat i denna avhandling.
Subject: sentence representation
cross-lingual transfer
feature-based transfer
natural language inference
emotion detection
transformers
natural language understanding
language technology
evaluation


Files in this item

Total number of downloads: Loading...

Files Size Format View
Nyholm_Sabine_magisteravhandling_2020.pdf 499.2Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record