Yliopiston etusivulle Suomeksi På svenska In English Helsingin yliopisto

World Wide Web korpuksena kielitieteellisen tutkimusaineiston haku verkkosivuilta

Show full item record

Files in this item

Files Description Size Format View/Open
worldwid.pdf 1.243Mb PDF View/Open
Use this URL to link or cite this item: http://urn.fi/URN:NBN:fi-fe201010142588
Vie RefWorksiin
Title: World Wide Web korpuksena kielitieteellisen tutkimusaineiston haku verkkosivuilta
Author: Malm, Karri
Contributor: University of Helsinki, Faculty of Arts, Department of General Linguistics
Thesis level: Master's thesis
Abstract: Tämä tutkielma käsittelee World Wide Webin sisältämien verkkosivujen sisältöjen käyttöä korpusmaisesti kielitieteellisenä tutkimusaineistona. World Wide Web sisältää moninkertaisesti enemmän tekstiä kuin suurimmat olemassa olevat perinteiset tekstikorpukset, joten verkkosivuilta voi todennäköisesti löytää paljon esiintymiä sellaisista sanoista ja rakenteista, jotka ovat perinteisissä korpuksissa harvinaisia. Verkkosivuja voidaan käyttää aineistona kahdella eri tavalla: voidaan kerätä satunnainen otos verkkosivuista ja luoda itsenäinen korpus niiden sisällöistä, tai käyttää koko World Wide Webiä korpuksena verkkohakukoneiden kautta. Verkkosivuja on käytetty tutkimusaineistona monilla eri kielitieteen aloilla, kuten leksikograafisessa tutkimuksessa, syntaktisten rakenteiden tutkimuksessa, pedagogisena materiaalina ja vähemmistökielten tutkimuksessa.

Verkkosivuilla on perinteisiin korpuksiin verrattuna useita haitallisia ominaisuuksia, jotka pitää ottaa huomioon, kun niitä käytetään aineistona. Kaikki sivut eivät sisällä kelvollista tekstiä, ja sivut ovat usein esimerkiksi HTML-muotoisia, jolloin ne pitää muuttaa helpommin käsiteltävissä olevaan muotoon. Verkkosivut sisältävät enemmän kielellisiä virheitä kuin perinteiset korpukset, ja niiden tekstityypit ja aihepiirit ovat runsaslukuisempia kuin perinteisten korpusten.

Aineiston keräämiseen verkkosivuilta tarvitaan tehokkaita ohjelmatyökaluja. Näistä yleisimpiä ovat kaupalliset verkkohakukoneet, joiden kautta on mahdollista päästä nopeasti käsiksi suureen määrään erilaisia sivuja. Näiden lisäksi voidaan käyttää erityisesti kielitieteellisiin tarpeisiin kehitettyjä työkaluja. Tässä tutkielmassa esitellään ohjelmatyökalut WebCorp, WebAsCorpus.org, BootCaT ja Web as Corpus Toolkit, joiden avulla voi hakea aineistoa verkkosivuilta nimenomaan kielitieteellisiin tarkoituksiin.
URI: URN:NBN:fi-fe201010142588
http://hdl.handle.net/10138/19360
Date: 2010-06-08
Copyright information: This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
This item appears in the following Collection(s)

Show full item record

Search Helda


Advanced Search

Browse

My Account