Classification and clustering in media monitoring : from knowledge engineering to deep learning

Show simple item record

dc.contributor.author Pivovarova, Lidia
dc.date.accessioned 2018-12-10T10:45:28Z
dc.date.available 2018-12-11
dc.date.available 2018-12-10T10:45:28Z
dc.date.issued 2018-12-21
dc.identifier.uri URN:ISBN:978-951-51-4701-1
dc.identifier.uri http://hdl.handle.net/10138/272992
dc.description.abstract This thesis addresses information extraction from financial news for decision support in the business domain. News is an important source of information for business decision makers, which reflects investors’ expectations and affects companies’ reputations. A vast amount of various news sources forces development of text mining algorithms to collect most crucial information and present to a user in a condensed form. The thesis presents the PULS media monitoring system and describes several news mining tasks, namely document clustering, multi-label news classification and text polarity detection. For each task, we present an end-to-end processing pipeline, starting from data preprocessing and clean-up. A particular attention is given to named entities (NEs), that are used as one of the inputs for all presented algorithms. Chapter 1 overviews the PULS news monitoring system and its niche within text mining for business intelligence. In Chapter 2 we propose a novel algorithm for news grouping, which uses NE salience and exploits a specific structure of news articles. In Chapter 3 we use automatically extracted NEs and entity descriptors in combination with keywords to improve SVM classifiers for large-scale multi-label text classification. Then, we propose a convolutional neural network (CNN) architecture that outperforms an ensemble of SVM classifiers for two different datasets. We compared various ways to represent NEs for CNN classifiers. In Chapter 4 we use a CNN classifier for entity-level business polarity detection. We compare three methods of re-using data annotated for a different though remotely related task and demonstrate that unsupervised knowledge transfer works better than other techniques that involve manual mapping. en
dc.description.abstract Tämä väitöskirja käsittelee sitä, kuinka taloutta kuvaavista uutisartikkeleista voidaan eristää tietoja, joita voidaan käyttää liiketoimintaan liittyvän päätöksenteon tukena. Uutisartikkelit ovat liike-elämän päättäjille tärkeitä tiedonlähteitä, joka kuvastavat sijoittajien odotuksia ja vaikuttavat yritysten maineeseen. Koska erilaisia uutislähteitä on valtava määrä, on uutisartikkelien hallintaan kuitenkin täytynyt kehittää erilaisia tekstitiedon louhinta-algoritmeja, joilla voidaan kerätä uutisartikkeleista kaikkein tärkeimmät tiedot ja esittää ne käyttäjälle tiivistetyssä muodossa. Väitöskirjassa esitellään median monitorointijärjestelmä PULS sekä kuvataan, kuinka uutisartikkelien analysointiin tässä järjestelmässä käytetään kolmea erilaista tiedonlouhintamenetelmää eli dokumenttien klusterointia, moniluokkaista uutisartikkelien luokittelua ja tekstin polaarisuuden havainnointia. Kaikki väitöskirjassa esitetyt louhintamenetelmät käyttävät syötteenään PULS-järjestelmän tiedon eristämisvaiheessa prosessoituja tekstejä, jossa alkuperäisistä teksteistä on etsitty niihin liittyvät erilaiset nimientiteetit ja muut alemman tason entiteetit. Väitöskirjassa osoitetaan, että lähes jokaisessa median monitorointiin liittyvässä tehtävässä on hyötyä näiden nimientiteettien käyttämisestä. PULS-järjestelmän tiedon eristämisvaiheessa siis tuotetaan piirteitä, joita järjestelmän koneoppimisvaiheen eri komponentit sitten hyödyntävät. Tässä väitöskirjassa tutustutaan useisiin tällaisiin komponentteihin, joissa käytetään sekä ohjattuja että ohjaamattomia oppimismenetelmiä samoin kuin kehittyneitä syväoppimismalleja. Väitöskirjassa myös osoitetaan, kuinka tällaista kaksivaiheista arkkitehtuuria voidaan käyttää tuhansien uutisartikkelien reaaliaikaiseen prosessointiin, kun tavoitteena on tarjota loppukäyttäjälle syvällinen ymmärrys kyseisen aihealueen tapahtumista. fi
dc.format.mimetype application/pdf
dc.language.iso eng
dc.publisher Helsingin yliopisto fi
dc.publisher Helsingfors universitet sv
dc.publisher University of Helsinki en
dc.relation.isformatof URN:ISBN:978-951-51-4700-4
dc.relation.isformatof Helsinki: 2018, 1238-8645
dc.rights Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty. fi
dc.rights This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited. en
dc.rights Publikationen är skyddad av upphovsrätten. Den får läsas och skrivas ut för personligt bruk. Användning i kommersiellt syfte är förbjuden. sv
dc.subject Computer Science
dc.title Classification and clustering in media monitoring : from knowledge engineering to deep learning en
dc.type.ontasot Doctoral dissertation (article-based) en
dc.type.ontasot Artikkeliväitöskirja fi
dc.type.ontasot Artikelavhandling sv
dc.ths Yangarber, Roman
dc.opn Ji, Heng
dc.type.dcmitype Text
dc.contributor.organization University of Helsinki, Faculty of Science, Department of Computer Science en
dc.contributor.organization Doctoral Programme in Computer Science en
dc.contributor.organization Helsingin yliopisto, matemaattis-luonnontieteellinen tiedekunta fi
dc.contributor.organization Tietojenkäsittelytieteen tohtoriohjelma fi
dc.contributor.organization Helsingfors universitet, matematisk-naturvetenskapliga fakulteten sv
dc.contributor.organization Doktorandprogrammet i datavetenskap sv
dc.type.publication doctoralThesis

Files in this item

Total number of downloads: Loading...

Files Size Format View
Classifi.pdf 1.964Mb PDF View/Open

This item appears in the following Collection(s)

Show simple item record