Information Extraction and linguistic characteristics of texts : exploring scenarios and text types

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-951-51-6641-8
Title: Information Extraction and linguistic characteristics of texts : exploring scenarios and text types
Author: Huttunen, Silja
Contributor: University of Helsinki, Faculty of Arts, Department of Languages
Doctoral Programme in Language Studies
Publisher: Helsingin yliopisto
Date: 2020-10-10
Language: en
URI: http://urn.fi/URN:ISBN:978-951-51-6641-8
http://hdl.handle.net/10138/319499
Thesis level: Doctoral dissertation (article-based)
Abstract: Information Extraction (IE) is the systematic harvesting of information from natural language text and speech into structured form, e.g., into a database, for further downstream use. The most typical use cases are related to media monitoring. Research in IE is driven by the need to find accurate information about a particular topic in massive collections or streams of text. In addition to the traditional methods of evaluation in IE, we introduce a second measure of quality, which indicates the relevance, or usability, of the extracted facts for an end-user. An extracted fact may be correct, but irrelevant from the user's perspective. This dissertation presents work on two problems: 1. porting an IE system from one topic to another, and 2. assessing the user-oriented relevance of results produced by an IE system. All tasks are not equally responsive to IE, and performance on some tasks remains worse than on others, despite extensive customization. The first part of this study is motivated by the gap between performance obtained by IE systems for different topics. Our experience with customizing IE confirms the intuition that different domains exhibit different kinds of complexity, e.g., the business-related domain vs. the domain relating to natural events. The underlying reason is the variation in the language that is used to report the topics. The aim of this thesis is to improve IE results by determining which linguistic and structural features should be taken into consideration when customizing an IE system to a new topic. In the process of adapting the IE system to several domains and building their knowledge bases, we analysed the linguistic and structural characteristics of the domains, and the style of reporting. Information extraction is used as a methodological tool for linguistic observation, as it enables us to expose and explore how linguistic variation affects the IE results. The second part focuses on measuring relevance of the IE results, that is, how well the extracted information satisfies the user's interest. We identify which linguistic and structural features are useful for improving the performance on these scenarios. It has been observed elsewhere in NLP settings, that taking the features into account can produce better results. Thus, the findings presented in this work can be beneficial for a variety of approaches to IE, including those based on machine learning techniques.Tarkastelen työssäni eri uutisaiheiden kielellisiä ja rakenteellisia erityispiirteitä tiedoneristämisen näkökulmasta. Tiedoneristäminen (Information Extraction, IE) on ennalta määritellyn tiedon tunnistamista luonnollisen kielen tekstistä. Tiedoneristäminen eroaa tiedonhausta (Information Retrieval, IR) siten, että kun IR hakee haluttuun aiheeseen liittyviä dokumentteja, IE poimii useimmiten tiedonhaun kautta syötteenä saadusta valtavasta tekstimassasta tarkkaa asiatietoa, joka vastaa kysymyksiin kuka, mitä, missä ja milloin. Nämä vastaukset eli faktat tallennetaan tietokantaan, josta niitä voidaan jatkohyödyntää. Tyypillisesti tietoa on eristetty mm. uutisraporteista mediaseurantaa varten. Yleensä saman aihealueen dokumentit käsitellään samalla IE-sovelluksella, kuitenkin niin, että kyseisen sovelluksen tietämyskannat, kuten ontologiat ja syntaktis-semanttiset hahmot, räätälöidään aina erikseen uusiin aiheisiin. Tutkimukseni taustalla on havainto, että käyttämäni hahmopohjainen IE-sovellus ei ollut yhtä hyvin sovellettavissa tarkastelemiini uutisaiheisiin. Mittavasta räätälöinnistä huolimatta sovellus toimi heikommin uutisoinneissa, jotka raportoivat luonnonkatastrofeista ja tartuntataudeista kuin uutisoinneissa yritysten henkilövaihdoksista, investoinneista ja uusien tuotteiden lanseeraamisista. Uutisten aihe vaikuttaa uutisoinnin kielelliseen ilmaisuun ja tyyliin, ja sitä kautta IE-tuloksiin. Tutkimukseni keskittyy niiden kielellisten ja rakenteellisten piirteiden tunnistamiseen, jotka vaikeuttavat tai edesauttavat IE-sovelluksen räätälöimistä uusiin aihepiireihin, ja hyödyntämään tehtyjä havaintoja IE-tulosten parantamiseksi. Vaikka IE-sovelluksen tuottamat faktat voivat olla oikeita (correct), eivät kaikki faktat ole yhtä hyödyllisiä (relevant) tiedon tarvitsijalle. Työni pohjalta esittelen joukon yleisiä sekä aihekohtaisia piirteitä, joiden avulla IE-sovelluksen tunnistamia faktoja voidaan luokitella niiden hyödyllisyyden mukaan. Tässä työssä tehtyjen havaintojen hyödyntäminen voi auttaa parantamaan myös muiden IE-lähestymistapojen tuloksia.
Subject: kieliteknologia
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
huttunen_silja_dissertation_2020.pdf 1.485Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record