Browsing by Subject "Language Technology"

Sort by: Order: Results:

Now showing items 1-20 of 35
  • Itkonen, Sami (Helsingin yliopisto, 2020)
    Sanayhdistelmät ovat useamman sanan kombinaatioita, jotka ovat jollakin tavalla jähmeitä ja/tai idiomaattisia. Tutkimuksessa tarkastellaan suomen kielen verbaalisia idiomeja sanaupotusmenetelmän (word2vec) avulla. Työn aineistona käytetään Gutenberg-projektista haettuja suomenkielisiä kirjoja. Työssä tutkitaan pääosin erityisesti idiomeja, joissa esiintyy suomen kielen sana ‘silmä’. Niiden idiomaattisuutta mitataan komposiittisuuden (kuinka hyvin sanayhdistelmän merkitys vastaa sen komponenttien merkitysten kombinaatiota) ja jähmeyttä leksikaalisen korvaustestin avulla. Vastaavat testit tehdään myös sanojen sisäisen rakenteen huomioonottavan fastText-algoritmin avulla. Työssä on myös luotu Gutenberg-korpuksen perusteella pienehkö luokiteltu lausejoukko, jota lajitellaan neuroverkkopohjaisen luokittelijan avulla. Tämä lisäksi työssä tunnustellaan eri ominaisuuksien kuten sijamuodon vaikutusta idiomin merkitykseen. Mittausmenetelmien tulokset ovat yleisesti ottaen varsin kirjavia. fastText-algoritmin suorituskyky on yleisesti ottaen hieman parempi kuin perusmenetelmän; sen lisäksi sanaupotusten laatu on parempi. Leksikaalinen korvaustesti antaa parhaimmat tulokset, kun vain lähin naapuri otetaan huomioon. Sijamuodon todettiin olevan varsin tärkeä idiomin merkityksen määrittämiseen. Mittauksien heikot tulokset voivat johtua monesta tekijästä, kuten siitä, että idiomien semanttisen läpinäkyvyyden aste voi vaihdella. Sanaupotusmenetelmä ei myöskään normaalisti ota huomioon sitä, että myös sanayhdistelmillä voi olla useita merkityksiä (kirjaimellinen ja idiomaattinen/kuvaannollinen). Suomen kielen rikas morfologia asettaa menetelmälle myös ylimääräisiä haasteita. Tuloksena voidaan sanoa, että sanaupotusmenetelmä on jokseenkin hyödyllinen suomen kielen idiomien tutkimiseen. Testattujen mittausmenetelmien käyttökelpoisuus yksin käytettynä on rajallinen, mutta ne saattaisivat toimia paremmin osana laajempaa tutkimusmekanismia.
  • Hotti, Helmiina (Helsingin yliopisto, 2023)
    Diagrams are a mode of communication that offers challenges for its computational processing. The challenges arise from the multimodal nature of diagrams. This means that diagrams combine several types of expressive resources to achieve their communicative purposes, such as textual elements, connective elements such as arrows and lines, and illustrations. Humans interpret diagrams by judging how these different expressive resources work together to reach the communicative goals set for the diagram. In order to do that, humans make inferences of the diagram layout and the implicit relations that exist between different parts of the diagram. In order to build computational methods for diagram understanding, large amounts of data annotated with these implicit relations is required. Traditionally, these types of discourse structure annotations have been annotated by experts, due to the difficulty of the task and the requirement that the annotator is familiar with the theoretical framework used for describing discourse relations. The chosen theory for modeling discourse relations in diagrams is Rhetorical Structure Theory, originally developed for modeling textual coherence but applicable to multimodal data as well. This thesis explores the possibility to gather discourse relation annotations for multimodal diagram data with crowdsourcing; employing naive workers on crowdsourcing platforms to complete annotation tasks for a monetary reward. Adapting the task of discourse relation annotation to be feasible for naive workers has been proven challenging by past research concerned with only textual data, and the multimodality of the data adds to the complexity of the task. This thesis presents a novel method for gathering multimodal discourse relation annotations using crowdsourcing and methods of natural language processing. Two approaches are explored: adopting an insertive annotation task where the workers are asked to describe the relationship between two diagram elements in their own words and adopting a multiple-choice task, converting the formal definitions of Rhetorical Structure Theory to understandable phrases to annotate with. Natural language processing is used in the first approach to validate the language and structure of the crowdsourced descriptions. The results of the first approach highlight the difficulty of the task: the workers show tendencies of relying heavily on example descriptions shown in the task instructions and difficulty of grasping the differences of the more fine-grained relations. The multiple-choice approach seems more promising, with annotation agreement with expert annotators higher than in previous research concerned with discourse relations in textual data. The manual inspection of the annotated diagrams show that the disagreement of the crowdworkers and expert annotators is often justifiable; both annotations represent a valid interpretation of the discourse relation. This highlights one of the main challenges of the task, which is the ambiguity of some of the relations. Future work is encouraged to consider this by adopting an approach that is less concerned with a pre-defined set of relations and more interested in how the different discourse relations are actually perceived.
  • Sutinen, Marjo (Helsingin yliopisto, 2017)
    Tämä Pro gradu -tutkielma käsittelee monivalintamuotoisten aukkotehtävien automaattista generointia suomen kielen sanataivutuksen harjoittelua varten. Aukkotehtävät ovat suosittu formaatti kielen opiskelussa ja kielitaidon arvioinnissa. Koska ne ovat muodoltaan melko hyvin kontrolloituja, niiden laatimisen automatisointi on ollut useiden akateemisten ja kaupallisten projektien tavoitteena viimeisten parin vuosikymmenen ajan. Tehtävä on osoittautunut haasteelliseksi. Jos aukkotehtävä generoidaan yksinkertaisesti poistamalla lauseesta sana, ja antamalla sen täyttäminen opiskelijalle tehtäväksi, käy helposti niin, ettei tehtävä ole mielekäs: usein näin tuotettuun aukkoon sopii monta vaihtoehtoista sanaa tai rakennetta. Yksi suurimmista haasteista aukkotehtävien generoinnissa on siis niin sanottu “aukkojen luotettavuus”: sen varmistaminen, että aukkoon sopiva ja epäsopiva vastaus pystytään erottamaan toisistaan. Yksi tapa varmistaa tämä on rajoittaa mahdollisten vastausten joukkoa antamalla vastausvaihtoehtoja, joiden tiedetään olevan vääriä. Tällöin automaattisen generoinnin haasteeksi nousee vääräksi tiedettyjen vaihtoehtojen löytäminen. Väärät vaihtoehdot eivät kuitenkaan saa olla sitä liian ilmeisellä tavalla: oikean vaihtoehdon valitsemisen täytyy muodostaa mielekäs haaste opiskelijalle. Tutkielmani pääasiallinen tavoite on tutkia luotettavien ja potentiaalisesti haastavien monivalintamuotoisten aukkotehtävien generoimista suomen kielen sanataivutuksen opiskelua varten. Kokeellisessa osiossa testaamaani metodia on aiemmin sovellettu menestyksekkäästi verrattavaan tarkoitukseen englannin kielen prepositioiden kontekstissa. Metodissa etsitään suuresta tekstikorpuksesta sellaisia prepositioita, jotka esiintyvät usein yhden aukon kontekstisanan kollokaationa, mutteivat koskaan kahden kontekstisanan kollokaationa samaan aikaan. Tavoitteeni on osoittaa, että metodia voi soveltaa myös suomen kielen taivutustehtävien generoimiseen. Testaan myös erityyppisten korpusten käyttöä tehtävän suorittamisessa, nimittäin yhtäältä peräkkäisyyteen perustuvia n-grammeja ja toisaalta syntaktiseen dependenssirakenteeseen perustuvia n-grammeja. Kokeellisen työn lisäksi erittelen työssäni kattavasti erilaisia tapoja muodostaa taivutusaukkotehtäviä, ja esittelen keksimäni aukkotehtävämallin. Keskeisin löydökseni on, että kyseisellä metodilla pystyy lisäämään aukkotehtävien luotettavuutta merkittävästi: sellaisissa testitapauksissa, joissa käytetty data on muutaman yksinkertaisen kriteerin mukaisesti arvioituna riittävää, jopa 80 % alun perin epäluotettavista aukoista muuttuu luotettaviksi. Lopussa pohdin tehtävien haasteellisuuden evaluointia sekä riittämättömän datan kysymyksiä. Mitä jälkimmäiseen tulee, argumentoin, että vaikka esille tulleiden datan riittävyyteen liittyvien haasteiden ratkaiseminen parantaisi tuloksia nykyisestään, voi metodia pitää tarkoitukseen sopivana jo sellaisenaan.
  • Vehomäki, Varpu (Helsingin yliopisto, 2022)
    Social media provides huge amounts of potential data for natural language processing but using this data may be challenging. Finnish social media text differs greatly from standard Finnish and models trained on standard data may not be able to adequately handle the differences. Text normalization is the process of processing non-standard language into its standardized form. It provides a way to both process non-standard data with standard natural language processing tools and to get more data for training new tools for different tasks. In this thesis I experiment with bidirectional recurrent neural network models and models based on the ByT5 foundation model, as well as the Murre normalizer to see if existing tools are suitable for normalizing Finnish social media text. I manually normalize a small set of data from the Ylilauta and Suomi24 corpora to use as a test set. For training the models I use the Samples of Spoken Finnish corpus and Wikipedia data with added synthetic noise. The results of this thesis show that there are no existing tools suitable for normalizing Finnish written on social media. There is a lack of suitable data for training models for this task. The ByT5-based models perform better than the BRNN models.
  • Narkevich, Dmitry (Helsingin yliopisto, 2021)
    Hypernymy is a relationship between two words, where the hyponym carries a more specific meaning, and entails a hypernym that carries a more general meaning. A particular kind of verbal hypernymy is troponymy, where troponyms are verbs that encode a particular manner or way of doing something, such as “whisper” meaning “to speak in a quiet manner”. Recently, contextualized word vectors have emerged as a powerful tool for representing the semantics of words in a given context, in contrast to earlier static embeddings where every word is represented by a single vector regardless of sense. BERT, a pre-trained language model that uses contextualized word representations, achieved state of the art performance on various downstream NLP tasks such as question answering. Previous research identified knowledge of scalar adjective intensity in BERT, but not systematic knowledge of nominal hypernymy. In this thesis, we investigate systematic knowledge of troponymy and verbal hypernymy in the base English version of BERT. We compare the similarity of vector representations for manner verbs and adverbs of interest, to see if troponymy is represented in the vector space. Then, we evaluate BERT’s predictions for cloze tasks involving troponymy and verbal hypernymy. We also attempt to train supervised models to probe vector representations for this knowledge. Lastly, we perform clustering analyses on vector representations of words in hypernymy pairs. Data on troponymy and hypernymy relationships is extracted from WordNet and HyperLex, and sentences containing instances of the relevant words are obtained from the ukWaC corpus. We were unable to identify any systematic knowledge about troponymy and verb hypernymy in BERT. It was reasonably successful at predicting hypernyms in the masking experiments, but a general inability to go in the other direction suggests that this knowledge is not systematic. Our probing models were unsuccessful at recovering information related to hypernymy and troponymy from the representations. In contrast with previous work that finds type-level semantic information to be located in the lower layers of BERT, our cluster-based analyses suggest that the upper layers contain stronger or more accessible representations of hypernymy.
  • Boggia, Michele; Ivanova, Sardana; Linkola, Simo; Toivonen, Hannu; Kantosalo, Anna (The Association for Computational Creativity, 2022)
    We explore the concept of Casual Poetry Creators with the aim of making poetry writing fun and entertaining for the user. We present a simple co-creative interaction design pattern based on constructing poems line by line, suggesting the user a set of line candidates at each step. We also propose objective measures by which a Casual Poetry Creator can evaluate and choose which line candidates to show to the user and sketch out a plan to evaluate the measures and pattern with users.
  • Rahman, Dean (Helsingin yliopisto, 2022)
    There are comprehensive requirements in Finland for procurement by any government organization to go through a tendering process where information about each tender is made available not only to vendors and service providers, but to everyone else in Finland as well. This is accomplished through the website Hilma and should make tenders easy to find. Moreover, in Finnish, variance in domain terminology is not thought to be the problem that it is in English. For instance, the last four years of tenders on Hilma never refer to jatkuva parantaminen as toiminnallinen erinomaisuus whereas “continuous improvement” and “operational excellence” could be used interchangeably in English. And yet, it is considered very difficult for a vendor or service provider to find applicable tenders on Hilma. Rather than lexical variability being the cause as it might be in English, the differences in concept paradigms between the private and public sectors in Finland pose the challenge. Whereas a taxi company representative would be looking for tenders about transportation services, a public officer could be posting a tender about social equity for the disabled. The second difficulty is that the Hilma search engine is purely Boolean with restrictive string match criteria rather than inviting natural language questions. Finally, the Hilma search engine does not account for Finnish being a highly inflecting and compounding language where single words usually morph instead of taking on adpositions, and where compound words are affixed together without hyphenation. Many information retrieval approaches would look outside the corpus for query expansion terms. Natural language processing might also offer the potential to look for paraphrases in existing parallel corpora on tenders throughout the European Union rather than in Hilma. However, this thesis focuses on clustering the tenders posted in Finnish on Hilma, applying the comprehensive workflow of the very recent BERTopic package for Python. All documents in each cluster are concatenated and the highest TFIDF-scoring words in the concatenated document are slated to be “search extension terms.” If one of the terms were to be entered by a Hilma user, the user would be invited to perform parallel searches with the remaining terms as well. The first main contribution of this thesis is to use state of the art models and algorithms to represent the corpus, reduce dimensionality of the representations and hierarchically cluster the representations. Second, this thesis develops analytical metrics to be used in automatic evaluation of the efficacy of the clusterings and in comparisons among model iterations that programmatically remove more and more distractions to the clustering that are discovered in the corpus. Finally, this thesis performs case studies on Hilma to demonstrate the remarkable efficacy of the search extension terms in generating tremendous numbers of additional useful matches, addressing paradigm-based differences in terminology, morphovariance and affixation.
  • China-Kolehmainen, Elena (Helsingin yliopisto, 2021)
    Computer-Assisted Language Learning (CALL) is one of the sub-disciplines within the area of Second Language Acquisition. Clozes, also called fill-in-the-blank, are largely used exercises in language learning applications. A cloze is an exercise where the learner is asked to provide a fragment that has been removed from the text. For language learning purposes, in addition to open-end clozes where one or more words are removed and the student must fill the gap, another type of cloze is commonly used, namely multiple-choice cloze. In a multiple-choice cloze, a fragment is removed from the text and the student must choose the correct answer from multiple options. Multiple-choice exercises are a common way of practicing and testing grammatical knowledge. The aim of this work is to identify relevant learning constructs for Italian to be applied to automatic exercises creation based on authentic texts in the Revita Framework. Learning constructs are units that represent language knowledge. Revita is a free to use online platform that was designed to provide language learning tools with the aim of revitalizing endangered languages including several Finno-Ugric languages such as North Saami. Later non-endangered languages were added. Italian is the first majority language to be added in a principled way. This work paves the way towards adding new languages in the future. Its purpose is threefold: it contributes to the raising of Italian from its beta status towards a full development stage; it formulates best practices for defining support for a new language and it serves as a documentation of what has been done, how and what remains to be done. Grammars and linguistic resources were consulted to compile an inventory of learning constructs for Italian. Analytic and pronominal verbs, verb government with prepositions, and noun phrase agreement were implemented by designing pattern rules that match sequences of tokens with specific parts-of-speech, surfaces and morphological tags. The rules were tested with test sentences that allowed further refining and correction of the rules. Current precision of the 47 rules for analytic and pronominal verbs on 177 test sentences results in 100%. Recall is 96.4%. Both precision and recall for the 5 noun phrase agreement rules result in 96.0% in respect to the 34 test sentences. Analytic and pronominal verb, as well as noun phrase agreement patterns, were used to generate open-end clozes. Verb government pattern rules were implemented into multiple-choice exercises where one of the four presented options is the correct preposition and the other three are prepositions that do not fit in context. The patterns were designed based on colligations, combinations of tokens (collocations) that are also explained by grammatical constraints. Verb government exercises were generated on a specifically collected corpus of 29074 words. The corpus included three types of text: biography sections from Wikipedia, Italian news articles and Italian language matriculation exams. The last text type generated the most exercises with a rate of 19 exercises every 10000 words, suggesting that the semi-authentic text met best the level of verb government exercises because of appropriate vocabulary frequency and sentence structure complexity. Four native language experts, either teachers of Italian as L2 or linguists, evaluated usability of the generated multiple-choice clozes, which resulted in 93.55%. This result suggests that minor adjustments i.e., the exclusion of target verbs that cause multiple-admissibility, are sufficient to consider verb government patterns usable until the possibility of dealing with multiple-admissible answers is addressed. The implementation of some of the most important learning constructs for Italian resulted feasible with current NLP tools, although quantitative evaluation of precision and recall of the designed rules is needed to evaluate the generation of exercises on authentic text. This work paves the way towards a full development stage of Italian in Revita and enables further pilot studies with actual learners, which will allow to measure learning outcomes in quantitative terms
  • An, Yu (Helsingin yliopisto, 2020)
    Maps of science, or cartography of scientific fields, provide insights into the state of scientific knowledge. Analogous to geographical maps, maps of science present the fields as positions and show the paths connecting each other, which can serve as an intuitive illustration for the history of science or a hint to spot potential opportunities for collaboration. In this work, I investigate the reproducibility of a method to generate such maps. The idea of the method is to derive representations representations for the given scientific fields with topic models and then perform hierarchical clustering on these, which in the end yields a tree of scientific fields as the map. The result is found unreproducible, as my result obtained on the arXiv data set (~130k articles from arXiv Computer Science) shows an inconsistent structure from the one in the reference study. To investigate the cause of the inconsistency, I derive a second set of maps using the same method and an adjusted data set, which is constructed by re-sampling the arXiv data set to a more balanced distribution. The findings show the confounding factors in the data cannot account for the inconsistency; instead, it should be due to the stochastic nature of the unsupervised algorithm. I also improve the approach by using ensemble topic models to derive representations. It is found the method to derive maps of science can be reproducible when it uses an ensemble topic model fused from a sufficient number of base models.
  • Kajava, Kaisla (Helsingin yliopisto, 2018)
    Sentimenttianalyysi (sentiment analysis) on nopeasti kehittyvä kieliteknologian ala, jonka päämääränä on automaattisesti tunnistaa luonnollisella kielellä tuotetusta tekstistä subjektiivisia piirteitä. Tyypillisesti sentimenttianalyysissa luokitellaan tekstiä binäärisesti luokkiin ‘positiivinen’ tai ‘negatiivinen’. Moniluokkainen tunneskaala saadaan kuitenkin kasvattamalla mahdollisten sentimenttiluokkien määrää, jolloin mukaan otetaan hienojakoisempia tunteita kuten ‘vihainen’, ‘iloinen’ ja ‘surullinen’. Tekstiklassifikaatiossa käytetään usein ohjattuja koneoppimismenetelmiä. Tämä edellyttää riittävää opetusaineistoa, jonka avulla klassifikaatioalgoritmi voidaan opettaa tunnistamaan tekstistä haluttuja piirteitä. Koska sentimenttianalyysiin tarvittavat opetusaineistot ovat pääosin englanninkielisiä, muunkielisiä aineistoja tuotetaan kääntämällä alkuperäinen aineisto eri kielille. On kuitenkin tärkeää arvioida käännetyn aineiston käytettävyyttä koneoppimisalgoritmien opetuksessa. Kun teksti käännetään kieleltä toiselle, tulee alkuperäisen sentimentti-informaation säilyä ennallaan, jotta tekstiä voidaan luotettavasti käyttää algoritmien opettamiseen. Mikäli sentimentti-informaatio säilyy hyvin käännetyssä tekstissä, kieltenvälisiä sentimenttiaineistoja voidaan koota siirto-oppimismenetelmillä (transfer learning) eli projisoimalla alkuperäiskielisten virkkeiden sentimenttiluokat käännetyille virkkeille. Tämä pro gradu -tutkimus arvioi, missä määrin luonnollisen kielen binäärinen ja moniluokkainen sentimentti-informaatio säilyy samana, kun teksti käännetään kieleltä toiselle. Tutkimusaineistona käytetään paralleeleja virkkeitä alkuperäiskielellä englanniksi sekä käännöksinä suomeksi, ranskaksi ja italiaksi. Sentimentti-informaation säilymistä tutkitaan annotoimalla ensin englanninkieliset virkkeet siten, että tuloksena on sekä binäärinen että moniluokkainen aineisto, jossa kullakin virkkeellä on yksi sentimenttiluokka. Tämän jälkeen kunkin käännetyn kielen paralleelit virkkeet annotoi kaksi erillistä annotoijaa, mistä saadaan vertailukohde alkuperäisille englanninkielille annotaatioille. Lisäksi tutkimus arvioi siirto-oppimismenetelmien hyödyllisyyttä tutkimalla, saavuttavatko koneoppimisalgoritmit samankaltaisia tuloksia käännetyillä aineistoilla, jotka on koottu projisoimalla alkuperäisten aineistojen annotaatiot käännetyille virkkeille, kuin alkuperäisillä englanninkielisillä aineistoilla. Sentimenttiklassifikaatiossa käytetään naiivi Bayes (naïve Bayes), maksimientropia (maximum entropy), monikerroksinen perseptroni (multilayer perceptron) ja tukivektorikone (support vector machine) -klassifikaattoreita. Tutkimustulokset osoittavat, että luonnollisen kielen tekstejä käännettäessä sentimentti-informaatio säilyy hyvin. Tämän perusteella voidaan päätellä, että kieltenvälinen siirto-oppiminen on tarpeeksi luotettava tapa opettaa sentimenttianalyysialgoritmeja. Klassifikaatiotulokset puolestaan osoittavat, että siirto-oppimismenetelmällä opetetut algoritmit saavuttavat luotettavia tuloksia binäärisessä klassifikaatiossa, kun taas vakaa moniluokkainen klassifikaatio vaatii suurempaa aineistoa.
  • Williams, Salla (Helsingin yliopisto, 2023)
    Hostility in the player communication of video games (and by extension, mobile games) is a well-documented phenomenon that can have negative repercussions for the well-being of the individual being subjected to it, and the society in general. Existing research on detecting hostility in games through machine learning methods is scarce due to the unavailability of data, imbalanced existing data (few positive samples in a large data set), and the challenges involved in defining and identifying hostile communication. This thesis utilizes communication data from the Supercell game Brawl Stars to produce two distinct machine learning models: a support vector classifier and a multi-layer perceptron. Their performance is compared to each other as well as to that of an existing sentiment analysis classifier, VADER. Techniques such as oversampling and using additional data are also used in an attempt to reach better results by improving the balance of the data set. The support vector classifier model was found to have the best performance overall, with an F1 score of 64.15% when used on the pure data set and 65.74% when combined with the SMOTE oversampling algorithm. The thesis includes an appendix with a list of the words that were found to have the strongest influence on the hostile/non-hostile classification.
  • Roivainen, Hege (Helsingin yliopisto, 2017)
    Kansalliskirjastojen metadataluettelot ovat hyviä informaatiolähteitä, sillä ne sisältävät tiedon lähes kaikesta tiettynä aikana ja tietyllä alueella julkaistusta aineistosta. Yleensä ne ovat kattavasti kuvailtuja, joten niitä voi käyttää kvantitatiivisen tutkimuksen lähteinä. Usein tutkimusta tehtäessä tutkimusaineisto kannattaa jakaa pienempiin osiin esimerkiksi genren perusteella. Monissa tapauksissa aineiston aukkoisuus kuitenkin vähentää aineiston käytettävyyttä. Tämä pro gradu -työ arvioi mahdollisuutta hyödyntää koneoppimista etsittäessä tutkimukselle relevantteja osajoukkoja kirjastoluetteloista. Esimerkkitapaukseksi valitsin English Short Title Cataloguen (ESTC) ja etsittäväksi osajoukoksi runokirjat. Runokirjojen genretiedon kuuluisi olla annotoitu, mutta todellisista kirjastoluetteloista tämä tieto usein puuttuu. Käytin random forest -algoritmiä perinteisillä tekijän tunnistuksessa ja genreluokittelussa käytetyillä erityyppisillä piirrevektoreilla sekä metadatakenttien arvoilla parhaan tuloksen saamiseksi. Koska kirjastoluettelot eivät sisällä kirjojen koko tekstiä, piirteiden valinta keskittyi otsikoissa käytettyihin sanoihin ja lingvistisiin ominaisuuksiin. Otsikot ovat yleensä lyhyitä ja sisältävät hyvin vähän informaatiota, minkä vuoksi yhdistin piirrevektoreiden parhaiten toimivat piirteet yhteen ja tein lopullisen haun niillä. Tutkimuksen päätulos oli varmistus siitä, että otsikoiden käyttö piirteiden muodostamisessa on käyttökelpoinen strategia. Tutkimus avaa mahdollisuuksia määrittää osajoukkoja tulevaisuudessa koneoppimisen keinoin ja lisätä kirjastoluetteloiden hyödyntämistä kvantitatiivisessa tutkimuksessa.
  • Melasuo, Elina (Helsingin yliopisto, 2020)
    Pro gradu -tutkielma käsittelee sähköpostin luokittelua. Lähtökohtana on tarve luokitella sähköposteja ohjatun koneoppimisen keinoin niin, että organisaation kirjaamoon tulevat sähköpostit voitaisiin välittää hoidettavaksi oikealle henkilölle organisaatiossa. Tutkielmassa esitellään tekstin luokittelun keinoja, haasteita ja käytäntöjä. Erilaisia tekstin esikäsittelytapoja ja sähköpostin erityispiirteitä kuvaillaan. Tutkielman testiaineisto koostuu tutkijan omista työsähköposteista. Sähköpostien pääkieli on suomi, vaikka englanninkielisiä osia löytyy työn luonteesta johtuen. Aineiston määrä on suhteellisen pieni (1518 sähköpostia) ja epätasapainossa eri henkilöiden, luokkien, kesken. Tutkimuksessa selvitetään, kuinka hyviä luokittelutuloksia saa tämän tyyppisellä aineistolla. Sähköpostiaineiston ollessa kyseessä tutkielmassa selvitetään myös tietosuojaa, luottamuksellisen tiedon käsittelyä ja esitellään aineistoon suoritettuja anonymisointikeinoja. Suomi on voimakkaasti taipuva kieli, ja lemmatisointia käytetään sanamuotojen normalisointimenetelmänä. Luokittelussa sovelletaan Multinomial Naïve Bayes -mallia, joka on generatiivinen todennäköisyysmalli. Piirreirrotusmenetelminä käytetään sanamäärävektoreita ja sanojen frekvenssien painokerroinvektoreita. Suorituskykymittareina käytetään tarkkuutta ja F1-arvoa. Luokittelutulosten parantamiskeinona käytetään hyperparametrien optimointia. Opetus- ja kehitysaineistoon verrattuna tutkimuksen tulokset testiaineiston kanssa ovat tilastollisesti katsottuna heikot. Johtopäätöksenä todetaan, että tutkielmassa käytetty sähköpostien määrä oli liian vähäinen, jotta luokittelija olisi osannut oppia harvinaisemmista luokista. Tutkielman perusteella korostetaan tarpeellisten järjestelmien asentamista, aineiston käsittelyprosessien toteuttamista ja tietosuoja-asioihin perehtymistä jo suunnittelussa ja aineiston keräysvaiheessa. Sähköpostiaineiston suurempaa määrää sekä luokitteluprosessissa käytettävien opetus-, kehitys- ja testiaineistojoukkojen sisältämien sähköpostien samankaltaisuutta suositellaan. Tutkielma voi toimia pohjana ja suunnannäyttäjänä suomenkielisten sähköpostien luokittelun jatkokehityksessä.
  • Svärd, Saana; Alstola, Tero; Jauhiainen, Heidi; Sahala, Aleksi; Linden, Krister (Brill, 2021)
    Culture and History of the Ancient Near East
  • Nyholm, Sabine (Helsingin yliopisto, 2020)
    Universella meningsrepresentationer och flerspråkig språkmodellering är heta ämnen inom språkteknologi, specifikt området som berör förståelse för naturligt språk (natural language understanding). En meningsinbäddning (sentence embedding) är en numerisk skildring av en följd ord som motsvaras av en hel fras eller mening, speficikt som ett resultat av en omkodare (encoder) inom maskininlärning. Dessa representationer behövs för automatiska uppgifter inom språkteknologi som kräver förståelse för betydelsen av en hel mening, till skillnad från kombinationer av enskilda ords betydelser. Till sådana uppgifter kan räknas till exempel inferens (huruvida ett par satser är logiskt anknutna, natural language inference) samt åsiktsanalys (sentiment analysis). Med universalitet avses kodad betydelse som är tillräckligt allmän för att gynna andra relaterade uppgifter, som till exempel klassificering. Det efterfrågas tydligare samförstånd kring strategier som används för att bedöma kvaliteten på dessa inbäddningar, antingen genom att direkt undersöka deras lingvistiska egenskaper eller genom att använda dem som oberoende variabler (features) i relaterade modeller. På grund av att det är kostsamt att skapa resurser av hög kvalitet och upprätthålla sofistikerade system på alla språk som används i världen finns det även ett stort intresse för uppskalering av moderna system till språk med knappa resurser. Tanken med detta är så kallad överföring (transfer) av kunskap inte bara mellan olika uppgifter, utan även mellan olika språk. Trots att behovet av tvärspråkiga överföringsmetoder erkänns i forskningssamhället är utvärderingsverktyg och riktmärken fortfarande i ett tidigt skede. SentEval är ett existerande verktyg för utvärdering av meningsinbäddningar med speciell betoning på deras universalitet. Syftet med detta avhandlingsprojekt är ett försök att utvidga detta verktyg att stödja samtidig bedömning på nya uppgifter som omfattar flera olika språk. Bedömningssättet bygger på strategin att låta kodade meningar fungera som variabler i så kallade downstream-uppgifter och observera huruvida resultaten förbättras. En modern mångspråkig modell baserad på så kallad transformers-arkitektur utvärderas på en etablerad inferensuppgift såväl som en ny känsloanalyssuppgift (emotion detection), av vilka båda omfattar data på en mängd olika språk. Även om det praktiska genomförandet i stor utsträckning förblev experimentellt rapporteras vissa tentativa resultat i denna avhandling.
  • Nikula, Ottilia (Helsingin yliopisto, 2023)
    Recent progress in natural language generation tools has raised concerns that the tools are being used to generate neural fake news. Fake news impacts our society in many ways, and they have been used for monetization schemes, to tip political elections, and have been shown to have a severe effect on people’s mental health. Accordingly, being able to detect neural fake news and countering their spread is becoming increasingly important. The aim of the thesis is to explore whether there are linguistic features that can help detect neural news. Using Grover, a neural language model, I generate a set of articles based on both real and fake human-written news. I then extract a range of linguistic features, previously found to differ between human-written real and fake news, to investigate whether the same features can be used detect Grover-written news, whether there are features that can differentiate between Grover-written news, whose source material is different, and whether based on these features Grover-written news are more similar to real or fake news. The data consists of 64 articles, of which 16 are real news sourced from reputable news sites and 16 are fake news articles from the ISOT Fake News Dataset. The other 32 articles are written by Grover, with having either the real news or fake news articles as source text (16 each). A broad range of linguistic features are extracted from the article bodies and titles to capture the style, complexity, and sentiment of the articles. The features measured include punctuation, quotes, syntax tree depths, and emotion counts. The results show that the same features which have been found to differ between real and fake news, can with some limitations be used to discern Grover Fake News (Grover-written articles based on fake news). However, Grover Real News (Grover-written articles based on real news) cannot reliably be discerned from real news. Moreover, while the features measured do not provide a reliable method for discerning Grover Real News and Grover Fake News from each other, there are still noticeable differences between the two groups. Grover Fake News can be differentiated from real news, but the texts can be considered of better quality than fake news. These findings also align with previous research, showcasing that Grover is adept at re-writing misinformation and making it more credible to readers, and that feature extraction alone cannot reliably distinguish neural fake news, but that human evaluation also needs to be considered.
  • Palma-Suominen, Saara (Helsingin yliopisto, 2021)
    Maisterintutkielma käsittelee monikielistä nimien tunnistusta. Tutkielmassa testataan kahta lähestymistapaa monikieliseen nimien tunnistukseen: annotoidun datan siirtoa toisille kielille, sekä monikielisen mallin luomista. Lisäksi nämä kaksi lähestymistapaa yhdistetään. Tarkoitus on löytää menetelmiä, joilla nimien tunnistusta voidaan tehdä luotettavasti myös pienemmillä kielillä, joilla annotoituja nimientunnistusaineistoja ei ole suuressa määrin saatavilla. Tutkielmassa koulutetaan ja testataan malleja neljällä kielellä: suomeksi, viroksi, hollanniksi ja espanjaksi. Ensimmäisessä metodissa annotoitu data siirretään kieleltä toiselle monikielisen paralleelikorpuksen avulla, ja näin syntynyttä dataa käytetään neuroverkkoja hyödyntävän koneoppimismallin opettamiseen. Toisessa metodissa käytetään monikielistä BERT-mallia. Mallin koulutukseen käytetään annotoituja korpuksia, jotka yhdistetään monikieliseksi opetusaineistoksi. Kolmannessa metodissa kaksi edellistä metodia yhdistetään, ja kieleltä toiselle siirrettyä dataa käytetään monikielisen BERT-mallin koulutuksessa. Kaikkia kolmea lähestymistapaa testataan kunkin kielen annotoidulla testisetillä, ja tuloksia verrataan toisiinsa. Metodi, jossa rakennettiin monikielinen BERT-malli, saavutti selkeästi parhaimmat tulokset nimien tunnistamisessa. Neuroverkkomallit, jotka koulutettiin kielestä toiseen siirretyillä annotaatioilla, saivat selkeästi heikompia tuloksia. BERT-mallin kouluttaminen siirretyillä annotaatioilla tuotti myös heikkoja tuloksia. Annotaatioiden siirtäminen kieleltä toiselle osoittautui haastavaksi, ja tuloksena syntynyt data sisälsi virheitä. Tulosten heikkouteen vaikutti myös opetusaineiston ja testiaineiston kuuluminen eri genreen. Monikielinen BERT-malli on tutkielman mukaan testatuista parhaiten toimiva metodi, ja sopii myös kielille, joilla annotoituja aineistoja ei ole paljon saatavilla.
  • Nieminen, Tommi (Helsingin yliopisto, 2018)
    Konekäännösten laadun arviointiin on kehitetty erilaisia menetelmiä 1950-luvulta lähtien. Aluksi laadunarviointimenetelmät olivat lähes yksinomaan manuaalisia, eli ne perustuivat kohdekielen osaajien subjektiivisiin arvioihin konekäännöksen laadusta. 1990-luvulla otettiin käyttöön ensimmäiset automaattiset arviointimenetelmät. Pitkäkestoisesta ja laajasta tutkimuksesta huolimatta sekä manuaaliset että automaattiset arviointimenetelmät ovat edelleen epäluotettavia. Manuaalisten menetelmien ongelmana on se, että eri arvioijien tekemät arviot eivät ole johdonmukaisia. Automaattiset menetelmät taas perustuvat yleensä konekäännöksen vertaamiseen ihmiskääntäjän tekemään yksittäiseen vertailukäännökseen. Lähes jokaiselle lähdelauseelle on olemassa suuri määrä mahdollisia käännöksiä, joten automaattiset menetelmät arvioivat hyvin usein käännökset väärin. Tässä tutkielmassa kuvataan uudenlainen automaattinen menetelmä konekäännösten laadun arviointia varten. Menetelmän testiaineisto koostuu englanninkielisistä lähdelauseista, joista jokaiselle on käytettävissä erittäin laaja joukko suomenkielisiä vertailukäännöksiä. Testiaineisto perustuu manuaalisesti laadittuihin monikielisiin kielioppeihin, jotka ovat eräänlaisia semanttisia malleja, joilla on erilaisia ilmentymiä lähde- ja kohdekielessä. Lähdekielen ilmentymät muodostavat lähdelauseiden joukon ja kohdekielen ilmentymät vertailulauseiden joukon. Semanttiset mallit sisältävät semanttisia muuttujia, jotka lisäävät vaihtelevuutta testiaineistoon. Lähdelauseiden konekäännöksiä verrataan vertailukäännöksiin käyttämällä äärellistilaisia menetelmiä, jotka mahdollistavat konekäännöstä eniten muistuttavan vertailukäännöksen tehokkaan etsimisen. Äärellistilaisten siirtymien avulla voidaan myös seurata, millaisia muutoksia konekäännökseen on tehtävä, jotta sen voi muuttaa sitä eniten muistuttavaksi vertailulauseeksi. Tämä mahdollistaa yksityiskohtaisten virheanalyysien laatimisen, joiden avulla voidaan analysoida konekäännösjärjestelmien vahvuuksia ja heikkouksia. Tutkielman menetelmää arvioidaan kääntämällä testiaineisto kahdeksalla erilaisella konekäännösjärjestelmällä, jotka perustuvat erilaisiin konekäännösmenetelmiin. Konekäännökset käsitellään sen jälkeen menetelmällä. Menetelmän toimivuutta arvioidaan vertaamalla sen tuottamaa virheanalyysia kahden arvioijan tekemiin manuaalisiin virheannotaatioihin sekä testaamalla, pystyykö menetelmä erottamaan ihmiskääntäjien käännökset konekäännöksistä luotettavasti. Menetelmän arviointi osoittaa, että se on riittävän luotettava antamaan yksityiskohtaisia tietoja konekäännösjärjestelmien ominaisuuksista. Menetelmän tulokset ovat myös yhdenmukaisia julkaistujen konekäännöksen virheanalyysia käsittelevien artikkelien tulosten kanssa. Menetelmä siis soveltuu ongelmien automaattiseen havaitsemiseen konekäännösjärjestelmien kehittämisen aikana, mikä on sen pääasiallinen käyttötarkoitus.
  • Kylliäinen, Ilmari (Helsingin yliopisto, 2022)
    Automatic question answering and question generation are two closely related natural language processing tasks. They both have been studied for decades, and both have a wide range of uses. While systems that can answer questions formed in natural language can help with all kinds of information needs, automatic question generation can be used, for example, to automatically create reading comprehension tasks and improve the interactivity of virtual assistants. These days, the best results in both question answering and question generation are obtained by utilizing pre-trained neural language models based on the transformer architecture. Such models are typically first pre-trained with raw language data and then fine-tuned for various tasks using task-specific annotated datasets. So far, no models that can answer or generate questions purely in Finnish have been reported. In order to create them using modern transformer-based methods, both a pre-trained language model and a sufficiently big dataset suitable for question answering or question generation fine-tuning are required. Although some suitable models that have been pre-trained with Finnish or multilingual data are already available, a big bottleneck is the lack of annotated data needed for fine-tuning the models. In this thesis, I create the first transformer-based neural network models for Finnish question answering and question generation. I present a method for creating a dataset for fine-tuning pre-trained models for the two tasks. The dataset creation is based on automatic translation of an existing dataset (SQuAD) and automatic normalization of the translated data. Using the created dataset, I fine-tune several pre-trained models to answer and generate questions in Finnish and evaluate their performance. I use monolingual BERT and GPT-2 models as well as a multilingual BERT model. The results show that the transformer architecture is well suited also for Finnish question answering and question generation. They also indicate that the synthetically generated dataset can be a useful fine-tuning resource for these tasks. The best results in both tasks are obtained by fine-tuned BERT models which have been pre-trained with only Finnish data. The fine-tuned multilingual BERT models come in close, whereas fine-tuned GPT-2 models are generally found to underperform. The data developed for this thesis will be released to the research community to support future research on question answering and generation, and the models will be released as benchmarks.
  • Ciarlanti, Alberto (Helsingfors universitet, 2016)
    This work goes through the study of deception in psychology, forensic sciences and language technology, focusing specifically to the techniques used in language technology to predict deception. Using a corpus of thruthful and deceptive hotel reviews, this work shows a Naïve-Bayes classifier which achieves a 90.4% accuracy rate. This Thesis shows that even though since 1998 text classifier are based on Support Vector Machines, with the corpus used and the features applied to such corpus, my Naïve-Bayes classifier achieves better results than any of the possible SVM counterparts. By studying the categorizer produced and noticing which features are most relevant, I show it is easily possible writing a deceptive review, that the machine classifier labels as truthful. The use of the Regressing Imagery Dictionary as psycholinguistic part of the classifier proved to be as effective as the more expensive and closed source option known as the Linguistic Inquiry and Word Count (LIWC). Also this is the first Thesis in the General Linguistics Department to use the new open source Natural Language Processing library spaCy (https://spacy.io/).