Baseline-regressio ja tutkimustulokset

Tyypillisessä empiirisessä artikkelissa on ns. baseline-regressio, josta tulevat artikkelin päätulokset, ja lisäregressiot, joilla pyritään varmistamaan päätulokset.* Lisäregressiot vastaavat kysymyksiin "Mitä jos käytettäisiin eri mittaria tälle muuttujalle?", "Mitä jos ei tehtäisi tätä baseline-regression oletusta funktiomuodosta?", "Mitä jos otettaisiin huomioon myös nämä ja nämä asiat?". Hyvässä artikkelissa on paljon lisäregressioita.**

Haaste tutkimuksen ja sen raportoinnin kannalta on se, että tutkijalla on käytettävissään vapauksia baseline-regression valinnassa. Jos tutkija tekee kaksi regressiota, ei ole aina selvää, miksi toisen pitäisi olla baseline-regressio ja toisen lisäregressio. Jos tarkastellaan regressioiden joukkoa ja tutkimuskysymysten joukkoa, niiden välillä ei ole injektiota. Kun tutkija ajaa regression, hän ei voi olla varma siitä, mihin tutkimuskysymykseen se vastaa. Jos taas tutkijalla on mielessään tutkimuskysymys, johon vastaa täydellisesti yksi, tietty regressio, tutkimuskysymys on todennäköisesti joko epämielenkiintoinen tai mahdoton tutkia.

Otetaan esimerkki. VATTin Tuomas Kosonen ja Jarkko Harju tutkivat ravintoloiden alv-alen vaikutuksia hintoihin, kysyntään ja työllisyyteen. Tutkijat eivät käytä tätä termiä, mutta heidän baseline-analyysinsä mukaan arvonlisäveroalennus laski kuluttajahintoja 2 prosenttia. Tämän lisäksi he ajavat lisäregression, jossa ravintoloita painotetaan liikevaihdolla, jolloin he saavat suuremman hintavaikutuksen, 4 prosenttia. Suuremmat ravintolat siis laskivat hintojaan enemmän kuin pienemmät.

Tutkijat tekevät mielestäni selkeän virheen siinä, että esittävät baseline-regression tuloksen kuluttajahintojen laskuna. Kuluttajahinnat eivät ole vain joukko hintoja, vaan kotitalouksien kulutusosuuksilla painotettu indeksi, joka mittaa elinkustannuksia. Jos puhuu kuluttajahinnoista, pitää painottaa kulutusosuuksilla, ja liikevaihto on parempi painotus kuin ei painotusta ollenkaan.

Noin muuten ei ole selvää, kumman regression pitäisi olla baseline-regressio ja kumman lisäregressio. Oma intuitioni sanoo, että jos mielenkiinnon kohteena on ensisijaisesti politiikkatoimenpide ja sen vaikutukset, liikevaihdolla painotetun regression pitäisi olla baseline-regressio. Jos taas mielenkiinnon kohteena on yleisempi näkökulma siitä, miten tyypillinen yritys reagoi veronalennukseen, painottamattoman regression pitäisi olla baseline-regressio. Huomionarvoista on, että "alv-alen vaikutukset hintoihin" on sen verran epämääräinen tutkimuskysymys, että molemmat regressiot vastaavat siihen.***

Otan vielä toisen esimerkin, havainnollistaakseni asiaa ja laimentaakseni sitä vaikutelmaa, että tässä olisi erityisesti kysymys yllä mainitusta tutkimuksesta. OECD:n Migration Outlook 2013 piti sisällään mm. laskelmia maahanmuuton fiskaalisista vaikutuksista. Taulukossa 3.7 esitetään baseline-regression ja kolmen lisäregression tulokset. Tulokset liittyvät siis maassa olevien maahanmuuttajien vaikutukseen, ja ne esitetään prosentteina bruttokansantuotteesta. Baseline-regressiossa sisällytetään arvioidut vaikutukset välittömiin veroihin, tulonsiirtoihin, eläkkeisiin ja julkisesti rahoitettuihin terveys- ja koulutuspalveluihin (OECD keskiarvo 0,3; Suomi 0,16). Ensimmäisessä lisäregressiossa poistetaan eläkkeet tarkastelusta (0,49; 0,12). Toisessa lisäregressiossa otetaan muut julkiset menot, pl. valtionvelan korkomenot ja puolustusmenot, ja jyvitetään ne per capita-periaatteella (-0,12; -0,08). Kolmannessa lisäregressiossa otetaan mukaan vielä valtionvelan korkomenot (-0,31; -0,13).

Ei ole yksiselitteistä, minkä regression pitäisi olla baseline-regressio. Baseline-regression voima näkyy kuitenkin uutisoinnissa, joka pohjautui Suomen osalta tuohon lukuun 0,16.

Sanottakoon vielä, että baseline-regressiota ei pidä valita sen perusteella, mikä on yksinkertaisin. Tämä olisi tietenkin luonteva lähestymistapa: opetammehan teoriaakin yksinkertaisilla "perusmalleilla", joihin sitten lisäämme erilaisia kitkoja ja instituutioita. Teoria pyrkii kuitenkin antamaan ajattelun välineitä, kun taas empiirinen työ pyrkii antamaan vastauksia. Teoriassa "väärä" malli voi olla hyödyllinen, empiriassa "väärä" tulos on aina hyödytön. Yksinkertaisuusperiaate ei myöskään vastaa täysin käytäntöä - yllä mainitun OECD:n tutkimuksen ensimmäinen lisäregressio on yksinkertaisin.

Miksi tutkijoiden kannattaa siis miettiä baseline-regressionsa valintaa?


  • Baseline-regressio on viestinnän kärki. Tutkijalla on vastuunsa siinä, että hänen tuloksensa tulkitaan oikein.
  • Baseline-regression valinnassa on mielivaltaisuutta. Jos asiaa ei aktiivisesti pohdi, valinnan määräävät helposti omat ennakkokäsitykset, poliittiset ja henkilökohtaiset intressit. Tutkimus julkaistaan todennäköisemmin, jos siinä esitetään "uusia" tuloksia. Tutkijalla on tällöin taipumus valita baseline-regressioksi se, josta tulee "uusin" tulos, tyypillisesti se, missä on suurin merkitsevyys ja kerroin.
  • Baseline-regression valinta auttaa miettimään sitä, mikä tutkimusaiheessa oikeasti kiinnostaa.

Lisäksi, jos mahdollista, abstraktiin on hyvä nostaa huomio lisäregressioista, jopa jokin vaihtoehtoinen luku. Näin tehdään yllä mainitussa VATT-tutkimuksessa. Epävarmuus ja tulkinnanvaraisuus kuuluu tieteeseen, sitä ei ole syytä peitellä.*Tämä pätee artikkeleihin, jotka pyrkivät löytämään jonkin tuloksen käyttäen uutta aineistoa tai teoriaa. On sitten artikkeleita, jotka pyrkivät kumoamaan jonkin aiemmin saadun tuloksen. Tällöin tutkijat uusintavat baseline-regressiossaan aiemman tuloksen, minkä jälkeen he tekevät lisäregressioita, jotka ovat parannuksia suhteessa baseline-regressioon ja antavat erilaisia tuloksia. Viestin kärki on tällöin päinvastainen: "Baseline-regressio on väärä".
**Usein nämä lisäregressiot jätetään kuitenkin pois lopullisesta versiosta. Lopullisessa versiossa on sitten viite working paper-versioon, josta nämä löytyvät.
***Korostan vielä sitä, että epämääräisyys ei ole tässä moite. Tutkimuskysymys antaa tutkijalle fokuksen, ja fokus voi olla liian terävä. Hyvä tutkimuskysymys on sopivan epämääräinen.

0 kommenttia:

Lähetä kommentti

Kommentti

Blogiarkisto