Subregisters on Reddit : Functional Variation across Text Lengths

Show full item recordPermalink

http://urn.fi/URN:ISBN:978-951-51-8458-0
Title: Subregisters on Reddit : Functional Variation across Text Lengths
Author: Liimatta, Aatu
Other contributor: Helsingin yliopisto, humanistinen tiedekunta
Helsingfors universitet, humanistiska fakulteten
University of Helsinki, Faculty of Arts
Kielentutkimuksen tohtoriohjelma
Doktorandprogrammet i språkforskning
Doctoral Programme in Language Studies
Publisher: Helsingin yliopisto
Date: 2022-09-23
Language: en
URI: http://urn.fi/URN:ISBN:978-951-51-8458-0
http://hdl.handle.net/10138/346443
Thesis level: Doctoral dissertation (article-based)
Abstract: This thesis comprises four studies which focus on register variation—the way language is used differently in different situational contexts and for different communicative purposes—within the social media platform Reddit. In particular, the focus of the present work is on variation in communicative function across Reddit comments of different lengths. Even though text length is often considered a confounding factor in corpus-linguistic studies, its role in various types of linguistic variation, including register variation, has received remarkably little study. In order to study register variation across Reddit, the present work makes use of large-scale datasets of Reddit comments. First, I implement a multi-dimensional register analysis (Biber, 1988), and extract three dimensions of register variation from comment threads from a group of thirty-seven subreddits. This study acts as a proof-of-concept pilot study to confirm that register analysis is a meaningful approach to Reddit data. In the three following studies, I propose and develop the idea of lengthwise methods, which make use of the fact that texts which are different in length can be difficult to compare with each other, but texts of the exact same length can be compared trivially. I then make use of such methods and a large-scale one-month dataset of Reddit comments to investigate the relationship between situationally and communicatively motivated linguistic choices, i.e. register variation, and the length of Reddit comments. The results show that comment length and communicative function are linked. Looking at Reddit as a whole, there are clear tendencies in feature distributions which suggest that, for example, narrative content tends to favor longer comments more, whereas interpersonal content tends to favor shorter comments. However, further analysis breaking the data into subcorpora for different subreddits, thematic subforums of Reddit, shows that in many cases, the functional associations of comments of various lengths may differ greatly from one subreddit to another. In other words, there is no single communicative function fulfilled by comments of specific length. The functions nonetheless follow interpretable patterns, but the exact patterns depend on the register. These results highlight the importance of taking into consideration an often overlooked variable, text length, in many linguistic analyses.Väitöskirjani ”Subregisters on Reddit: Functional Variation across Text Lengths” käsittelee englannin kielen rekisterivaihtelua, eli sitä, miten kieltä käytetään eri tavoin eri tilanteissa ja tarkoituksiin. Työni pohjautuu aiempaan rekisteritutkimukseen, joka on havainnut, että monet kielenpiirteet (kuten aikamuodot, sanaluokat ja lauserakenteet) ovat funktionaalisia, eli niitä käytetään useammin sellaisissa tilanteissa ja sellaisiin tarkoituksiin, joiden tarpeisiin ne parhaiten sopivat. Väitöskirjani tärkein innovaatio on yhdistää rekisteripiirteiden analyysiin tekstin pituus. Tekstin pituuden vaikutusta erilaisiin kielellisiin ilmiöihin ei ole tutkittu kovin paljoa. Hypoteesini on, että samoin kuin kielenpiirteet, myös tekstin pituus ohjautuu tekstin funktion mukaan. Jos tämä hypoteesi pitää paikkansa, tekstin pituuden ja siitä löytyvien kielenpiirteiden välillä pitäisi olla yhteys. Väitöskirjani tutkii tätä yhteyttä. Käytän tutkimusaineistonani sosiaalisen median alusta Redditistä peräisin olevaa suurta n. 80 miljoonan kommentin aineistoa, joka kattaa kaikki julkiset Reddit-kommentit yhden kuukauden ajalta. Kehitän aineistoni suurta kokoa hyödyntävän laskennallisen tutkimusmenetelmän, jonka avulla pystyn analysoimaan kielenpiirteiden ja tekstin pituuden välistä yhteyttä. Analysoin tätä menetelmää käyttäen suuren kielenpiirrejoukon vaihtelua aineistossani. Analyysi osoittaa, että hypoteesini mukaisesti tekstin pituuden ja sen kielenpiirteiden välillä on yhteys. Esimerkiksi narratiivit, joissa kerrotaan menneistä tapahtumista, vaikuttavat suosivan pidempiä kommentteja. Selvittääkseni, pitävätkö samat funktionaaliset taipumukset aina paikkansa vai voiko funktio suosia eri tilanteissa eripituisia tekstejä, suoritan samanlaisen analyysin erikseen joukolle niin kutsuttuja ”alireddittejä” eli Redditin alifoorumeita, joista jokainen on omistettu eri aiheelle. Tämän analyysin perusteella selviää esimerkiksi, että kertova funktio suosii pidempiä kommentteja tietyissä aliredditeissä, kun taas monissa muissa aliredditeissä se vaikuttaa esiintyvän jotakuinkin yhtä vahvasti kaiken mittaisissa kommenteissa tai jopa hiukan yleisemmin lyhyemmissä kommenteissa. Funktion ja tekstin pituuden välinen yhteys voi siis vaihdella tilanteesta riippuen. Tutkimukseni osoittaa, että erilaiset funktiot suosivat usein eripituisia tekstejä, mutta että yhteys funktion ja tekstin pituuden välillä ei ole kiinteä, vaan riippuu tekstin ja tilanteen laajemmasta kontekstista. Näiden löydösten keskeisin viesti on, että tekstin pituus, johon kielitieteessä harvoin kiinnitetään paljoa huomiota, on tärkeä muuttuja, joka olisi usein hyödyllistä huomioida kielitieteellisissä tutkimuksissa.
Subject: englannin kieli
Rights: Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.


Files in this item

Files Size Format View

There are no files associated with this item.

This item appears in the following Collection(s)

Show full item record