Natural language processing system for business intelligence

Show full item record

Permalink

http://urn.fi/URN:ISBN:978-951-51-3901-6
Title: Natural language processing system for business intelligence
Author: Du, Mian
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
Thesis level: Doctoral dissertation (article-based)
Abstract: The ongoing information explosion has a particular impact on business areas, involving corporate strategy and business decision-making. Business intelligence tools aim to help users to understand market trends, which is critical for their day-to-day operations. For example, it is a typical business intelligence task to effectively obtain accurate and relevant information about the competitor’s activity in the same industry sector. This thesis presents research on a natural language processing system, which aims to address the problem of information overload in the business domain. It uses document filtering, information extraction, and supervised and semi-supervised learning. Input to the system includes news documents from on-line news websites and company press pages. We first demonstrate that a combination of NLP techniques and frequent sequential pattern mining can be used for finding patterns from unstructured natural-language text, i.e., news articles. The patterns relate to a specific domain of news. Evaluation results show that scenario-based summarization can filter out irrelevant documents and also extract important sentences from relevant documents as summaries for pre-defined scenarios in a specific domain. For document-level filtering, this method achieves very high precision, while keeping quite high recall in our study. Next, we present experiments with supervised learning for labelling business-news documents with multiple industry sectors. The main contribution is that combining a named-entity-based rote classifier with the balanced classifiers yields better results than either classifier alone. This method also improves on the best score previously reported, while using the same amount of training data for the rote classifier, and considerably less for the statistical classifiers. We then explore the interplay between company news, social media visibility, and stock prices. Information extracted from on-line news by means of the deep linguistic analysis is used to construct queries to various social media platforms. The main results presented in the thesis demonstrate the interesting correlations between the mentions of a company in the news and the views of its page in Wikipedia. Based on the above research topics, the thesis also presents the design and architecture of a complete decision-support system. The system is an example of using the above research results to extract, analyze and organize information from plain-text news.Nykyinen tiedon määrän räjähdysmäinen kasvu vaikuttaa liiketoimintaan, erityisesti yritysstrategioihin ja liiketoimintaan liittyvään päätöksentekoon. Erilaisten liiketoimintatiedon hallintatyökalujen tavoitteena on auttaa niiden käyttäjiä ymmärtämään markkinoiden kehitystä, mikä on ratkaisevan tärkeää yritysten päivittäisten toimintojen kannalta. Tyypillinen liiketoimintatiedon hallintatehtävä on esimerkiksi tarkkojen ja olennaisten tietojen hankkiminen kilpailijan toiminnasta samalla toimialalla. Tässä väitöskirjassa esitellään järjestelmä, jossa luonnollisen kielen käsittelymenetelmillä pyritään ratkaisemaan informaation ylikuormituksesta aiheutuvia ongelmia liiketoiminnassa. Järjestelmässä tähän käytetään dokumenttien suodatusta, tiedon eristämistä sekä erilaisia ohjattuja ja puoliohjattuja koneoppimismenetelmiä. Järjestelmän syötteitä ovat online-uutispalveluista ja yrityksen lehdistötiedotesivuilta löytyvät erilaiset uutisartikkelit. Väitöskirjassa osoitetaan ensin, että yhdistämällä luonnollisen kielen käsittelytekniikoita (ns. NLP-tekniikoita) ja sekvenssitiedonlouhintaa voidaan rakenteeltaan luonnollisesta tekstistä, toisin sanoen uutisartikkeleista, löytää erilaisia hahmoja, jotka liittyvät tietyn aihepiirin uutisiin. Tutkimuksen tulokset osoittavat, että näillä menetelmillä voidaan suodattaa pois tarkasteltavan liiketoimintaskenaarion kannalta merkityksettömät uutisartikkelit. Sitten tähän tiettyyn skenaarioon liittyvät yhteenvedot voidaan rakentaa poimimalla tärkeitä lauseita asiaankuuluvista merkityksellisistä artikkeleista. Artikkelien suodatuksessa tämän menetelmän tarkkuus, eli merkityksellisten artikkelien osuus kaikista löydetyistä artikkeleista, on korkea samalla, kun merkityksellisten artikkelien saanti eli se osuus, joka aihepiirin merkityksellisistä artikkeleista löydetään, pysyy myös melko korkeana. Työssä esitellään tämän jälkeen liiketoimintaan liittyvien uutisartikkelien luokittelua eri teollisuuden sektoreille ohjatun oppimisen avulla. Tärkein tähän liittyvä havainto on se, että käytettäessä työssä kehitettyä enemmistöäänestykseen perustuvaa luokittelijaa yhdessä jonkin tasapainotetun tilastollisen luokittelijan kanssa on luokittelutulos parempi kuin käytettäessä kumpaakaan luokittelijaa yksinään. Tämä menetelmä myös tuottaa paremman luokittelutuloksen kuin aiemmin raportoidut menetelmät samalla, kun luokitteluun käytetään saman verran opetusaineistoa kuin, mitä sääntöpohjainen luokittelija tarvitsee, ja huomattavasti vähemmän aineistoa kuin, mitä tilastolliset luokittelijat vaativat. Lisäksi väitöskirjatyössä tutkitaan yritysuutisten, sosiaalisen median näkyvyyden ja osakekurssien välistä vuorovaikutusta. Verkkouutisista syvällisen kielellisen analyysin avulla saatuja tietoja käytetään kyselyjen rakentamiseen erilaisille sosiaalisen median alustoille. Työssä esitetyt tärkeimmät tulokset osoittavat mielenkiintoisia korrelaatioita yrityksen mainitsevien uutisten ja sen Wikipedia-sivulle tehtyjen vierailujen välillä. Näiden tutkimusteemojen pohjalta väitöskirjassa esitetään myös kokonaisvaltaisen päätöksentekojärjestelmän rakenne ja arkkitehtuuri. Tämä järjestelmä on esimerkki edellä mainittujen tutkimustulosten käyttämisestä tiedon eristämiseen, analysointiin ja järjestämiseen tekstimuotoisista uutisista.
URI: URN:ISBN:978-951-51-3901-6
http://hdl.handle.net/10138/228676
Date: 2017-11-29
Subject:
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
Naturall.pdf 3.051Mb PDF View/Open

This item appears in the following Collection(s)

Show full item record