Term Weighting in Short Documents for Document Categorization, Keyword Extraction and Query Expansion

Show full item record



Permalink

http://urn.fi/URN:ISBN:978-952-10-8567-3
Title: Term Weighting in Short Documents for Document Categorization, Keyword Extraction and Query Expansion
Author: Timonen, Mika
Contributor: University of Helsinki, Faculty of Science, Department of Computer Science
VTT Technical Research Centre of Finland
Publisher: Helsingin yliopisto
Date: 2013-01-25
Language: en
URI: http://urn.fi/URN:ISBN:978-952-10-8567-3
http://hdl.handle.net/10138/37924
Thesis level: Doctoral dissertation (article-based)
Abstract: This thesis focuses on term weighting in short documents. I propose weighting approaches for assessing the importance of terms for three tasks: (1) document categorization, which aims to classify documents such as tweets into categories, (2) keyword extraction, which aims to identify and extract the most important words of a document, and (3) keyword association modeling, which aims to identify links between keywords and use them for query expansion. As the focus of text mining is shifting toward datasets that hold user-generated content, for example, social media, the type of data used in the text mining research is changing. The main characteristic of this data is its shortness. For example, a user status update usually contains less than 20 words. When using short documents, the biggest challenge in term weighting comes from the fact that most words of a document occur only once within the document. This is called hapax legomena and we call it Term Frequency = 1, or TF=1 challenge. As many traditional feature weighting approaches, such as Term Frequency - Inverse Document Frequency, are based on the occurrence frequency of each word within a document, these approaches do not perform well with short documents. The first contribution of this thesis is a term weighting approach for document categorization. This approach is directed to combat the TF=1 challenge by excluding the traditional term frequency from the weighting method. It is replaced by using word distribution among categories and within a single category as the main components. The second contribution of this thesis is a keyword extraction approach that uses three levels of word evaluation: corpus level, cluster level, and document level. I propose novel weighting approaches for all of these levels. This approach is designed to be used with short documents. Finally, the third contribution of this thesis is an approach for keyword association weighting that is used for query expansion. This approach uses keyword co-occurrences as the main component and creates an association network that aims to identify strong links between the keywords. The main finding of this study is that the existing term weighting approaches have trouble performing well with short documents. The novel algorithms proposed in this thesis produce promising results both for the keyword extraction and for the text categorization. In addition, when using keyword weighting with query expansion, we show that we are able to produce better search results especially when the original search terms would not produce any results.Tämä väitös keskittyy termien painotuksen haasteisiin lyhyissä dokumenteissa. Ehdotan painotusmenetelmiä kolmeen eri osa-alueeseen: (1) dokumenttien kategorisointi, jossa pyritään luokittelemaan muun muassa Twitter viestejä, (2) avainsanojen louhinta, jossa tavoitteena on tunnistaa ja louhia dokumentin tärkeimmät sanat, ja (3) avainsanojen assosiaatiomallinnus, jonka tavoitteena on tunnistaa sanojen välisiä linkkejä ja hyödyntää niitä haun laajennoksessa. Koska tekstinlouhinta keskittyy nykyään käyttäjien luomiin dokumentteihin, kuten esimerkiksi sosiaaliseen mediaan, tekstinlouhinnassa käytetty tieto on muuttumassa. Suurin muutos on tekstin pituus, koska sosiaalisen median viestit ovat usein alle 20 sanaa pitkiä. Tästä seuraa painotuksen suurin haaste: sanat esiintyvät usein pelkästään kerran dokumentin sisällä. Me kutsumme tätä haastetta Term Frequency = 1 (Termi Frekvenssi = 1) tai TF=1 haasteeksi. Tämän haasteen vuoksi useat perinteiset menetelmät, kuten esimerkiksi TF-IDF, ei tuota hyviä tuloksia lyhyissä dokumenteissa. Tämän työn ensimmäinen kontribuutio on termien painotus menetelmä dokumenttien luokitteluun. Menetelmä perustuu sanan esiintymistiheyden korvaamiseen muilla komponenteille, kuten esimerkiksi sanan luokkakohtaisella jakaumalla. Työn toinen kontribuutio on menetelmä avainsanojen louhintaan joka perustuu sanojen hyvyyden arviointiin kolmella eri tasolla: korpus, klusteri ja dokumentti tasoilla. Kolmas kontribuutio keskittyy avainsanojen assosiaatiomallintamiseen. Tässä tavoitteena on löytää vahvasti toisiinsa liittyviä avainsanoja ja hyödyntää näitä linkkejä haun laajennoksessa. Tämän väitöskirjan tärkein löydös on se, että olemassa olevat ja hyväksi havaitut menetelmät jotka on luotu pitkille dokumenteille, eivät toimi lyhyiden dokumenttien kanssa optimaalisesti. Tässä väitöksessä esitetyt uudet menetelmät tuottavat lupaavia menetelmiä kaikilla kokeilluilla osa-alueilla.
Subject: tietojenkäsittelytiede
Rights: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.


Files in this item

Total number of downloads: Loading...

Files Size Format View
timonen_dissertation.pdf 236.1Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record