Classification and clustering in media monitoring: from knowledge engineering to deep learning

Show full item record

Permalink

http://urn.fi/URN:ISBN:978-951-51-4701-1
Title: Classification and clustering in media monitoring: from knowledge engineering to deep learning
Author: Pivovarova, Lidia
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
Doctoral Programme in Computer Science
Publisher: Helsingin yliopisto
Date: 2018-12-21
URI: http://urn.fi/URN:ISBN:978-951-51-4701-1
http://hdl.handle.net/10138/272992
Thesis level: Doctoral dissertation (article-based)
Abstract: This thesis addresses information extraction from financial news for decision support in the business domain. News is an important source of information for business decision makers, which reflects investors’ expectations and affects companies’ reputations. A vast amount of various news sources forces development of text mining algorithms to collect most crucial information and present to a user in a condensed form. The thesis presents the PULS media monitoring system and describes several news mining tasks, namely document clustering, multi-label news classification and text polarity detection. For each task, we present an end-to-end processing pipeline, starting from data preprocessing and clean-up. A particular attention is given to named entities (NEs), that are used as one of the inputs for all presented algorithms. Chapter 1 overviews the PULS news monitoring system and its niche within text mining for business intelligence. In Chapter 2 we propose a novel algorithm for news grouping, which uses NE salience and exploits a specific structure of news articles. In Chapter 3 we use automatically extracted NEs and entity descriptors in combination with keywords to improve SVM classifiers for large-scale multi-label text classification. Then, we propose a convolutional neural network (CNN) architecture that outperforms an ensemble of SVM classifiers for two different datasets. We compared various ways to represent NEs for CNN classifiers. In Chapter 4 we use a CNN classifier for entity-level business polarity detection. We compare three methods of re-using data annotated for a different though remotely related task and demonstrate that unsupervised knowledge transfer works better than other techniques that involve manual mapping.Tämä väitöskirja käsittelee sitä, kuinka taloutta kuvaavista uutisartikkeleista voidaan eristää tietoja, joita voidaan käyttää liiketoimintaan liittyvän päätöksenteon tukena. Uutisartikkelit ovat liike-elämän päättäjille tärkeitä tiedonlähteitä, joka kuvastavat sijoittajien odotuksia ja vaikuttavat yritysten maineeseen. Koska erilaisia uutislähteitä on valtava määrä, on uutisartikkelien hallintaan kuitenkin täytynyt kehittää erilaisia tekstitiedon louhinta-algoritmeja, joilla voidaan kerätä uutisartikkeleista kaikkein tärkeimmät tiedot ja esittää ne käyttäjälle tiivistetyssä muodossa. Väitöskirjassa esitellään median monitorointijärjestelmä PULS sekä kuvataan, kuinka uutisartikkelien analysointiin tässä järjestelmässä käytetään kolmea erilaista tiedonlouhintamenetelmää eli dokumenttien klusterointia, moniluokkaista uutisartikkelien luokittelua ja tekstin polaarisuuden havainnointia. Kaikki väitöskirjassa esitetyt louhintamenetelmät käyttävät syötteenään PULS-järjestelmän tiedon eristämisvaiheessa prosessoituja tekstejä, jossa alkuperäisistä teksteistä on etsitty niihin liittyvät erilaiset nimientiteetit ja muut alemman tason entiteetit. Väitöskirjassa osoitetaan, että lähes jokaisessa median monitorointiin liittyvässä tehtävässä on hyötyä näiden nimientiteettien käyttämisestä. PULS-järjestelmän tiedon eristämisvaiheessa siis tuotetaan piirteitä, joita järjestelmän koneoppimisvaiheen eri komponentit sitten hyödyntävät. Tässä väitöskirjassa tutustutaan useisiin tällaisiin komponentteihin, joissa käytetään sekä ohjattuja että ohjaamattomia oppimismenetelmiä samoin kuin kehittyneitä syväoppimismalleja. Väitöskirjassa myös osoitetaan, kuinka tällaista kaksivaiheista arkkitehtuuria voidaan käyttää tuhansien uutisartikkelien reaaliaikaiseen prosessointiin, kun tavoitteena on tarjota loppukäyttäjälle syvällinen ymmärrys kyseisen aihealueen tapahtumista.
Subject: Computer Science
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
Classifi.pdf 1.964Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record