Puoluegallupit ja otosten otokset

Tiedättehän, kuinka puoluegallupeissa puhutaan aina virhemarginaaleista? Virhemarginaalihan kuvaa otoksen perusteella laskettuun kannatusosuuteen liittyvää epävarmuutta. Tyypillisessä 1000 haastatellun gallupissa virhemarginaali isommille puolueille on kahden ja puolen prosenttiyksikön luokkaa, pienemmille puolueille sitten vähän pienempi.

En tiedä, mistä juontaa juurensa tapa raportoida virhemarginaalit kannatusosuuksille. Se vaikuttaa ontolta rituaalilta. Lausutaan Symbolum Apostolicum ja ajatellaan että sielu on pelastettu, vaikka latinan ymmärrys on niin ja näin eikä oikein sisäistetä, mikä niiden kummallisten sanojen pointti oli tai miten niiden pitäisi ohjata toimintaa. Lausutaan, koska latinaa puhuvat viisaat käskevät lausumaan ja muutkin lausuvat.

Käyn tässä postauksessa läpi gallupeja ja niiden tulkintaa. Koetan pitää tilastotieteen kevyenä ja jättää toiseen kertaan p-arvojen ja luottamusvälien oikeat ja väärät tulkinnat. Hyvin yleisellä tasolla siis, mitä virhemarginaali tarkoittaa? Virhemarginaali määrittelee luottamusvälin, joka kuvaa otoksesta saadun estimaatin luotettavuutta. Estimaatti on vain sana sille, että arvioidaan jotain tuntematonta. Arvot kokoomuksen kannatuksesta luottamusvälin puitteissa ovat hyviä arvioita siitä, mikä kokoomuksen kannatus on koko kansan keskuudessa.

Luottamusvälin määräytymisessä tärkeässä osassa on luottamustason valinta. Puhutaan esimerkiksi 95 prosentin luottamustasosta, mikä tarkoittaa sitä että jos toistaisimme otosta 95 prosenttia generoiduista luottamusväleistä - jotka vaihtelevat otoksesta toiseen - pitäisivät sisällään kokoomuksen todellisen kannatusluvun.

Älä huoli, jos ei avautunut. Ehkä esimerkit auttavat. Otetaan luottamustaso annettuna ja katsotaan, miten erilaisiin gallup-lukuihin voi luottaa.

1. Onko puolueen kannatus todellakin noussut?

Tässä on melko tyypillistä gallup-uutisointia Hesarista elokuun lopulta:

HS:n tuoreen kannatusmittauksen mukaan kokoomus on onnistunut kansalaisten vakuuttamisessa paremmin kuin keskusta ja perussuomalaiset, joiden kannatus on laskenut kesän aikana. Kokoomuksen kannatus on noussut touko-kesäkuun kyselyn 20,5 prosentista 22,1 prosenttiin. Se on korkein kokoomuksen kannatus HS:n kyselyssä sitten huhtikuun 2012.

On kaksi estimaattia, yksi kokoomuksen touko-kesäkuun kannatukselle ja toinen kokoomuksen elokuun kannatukselle. Gallup-lukema elokuulle on 22,1 prosenttia ja touko-kesäkuulle 20,5 prosenttia. Uutisessa raportoidaan tunnollisesti elokuun luvun virhemarginaali. Mutta miten luotettava on arvio siitä, että kokoomuksen kannatus on noussut? Entä jos kokoomuksen kannatus olikin touko-kesäkuussa yhtä suuri tai jopa suurempi kuin elokuussa, ja nämä kaksi otosta vain sattuivat näyttämään tällä kertaa tältä?

Jos noudatetaan samaa 95 prosentin luottamustasoa, jolla virhemarginaalit on laskettu, ei voida sanoa, että kokoomuksen kannatus on noussut. Ja tässä tulee esiin se, että virhemarginaalien raportointi on lähinnä ontto rituaali. Jos todella uskoisi virhemarginaaleihin, ei voisi kirjoittaa kokoomuksen kannatuksen kasvaneen. Ja oikeastaan HS:n toimittajat ovat tässä tarkkoja, koska he eivät niin kirjoitakaan. Uutisessa puhutaan vain kyselyiden kannatuslukujen kasvusta. Itse asiassa muutosten tilastolliseen merkitsevyyteen jutussa viitataan keskustan kannatuslukujen osalta.

Kesän aikana keskustan kannatus on laskenut 20,3 prosentista 19,9 prosenttiin, mutta muutos ei ole tilastollisesti merkittävä.

Olisi tietenkin ollut vaikea kirjoittaa yllä linkitetty juttu, jos siihen olisi liittänyt vastaavan lauseen kokoomuksen kannatuksesta. On varmasti vaikea kirjoittaa yhtään mitään juttua, jos yhtään mikään muutos ei ole tilastollisesti merkitsevä.

2. Kannattaako enemmistö perussuomalaisista todellakin tasa-arvoista avioliittolakia?

Monesti meitä kiinnostaa se, onko tietyn asian kannatus yli vai alle 50 prosenttia. Koska luottamusväli kuvaa sitä hyviä arvioita siitä, mikä estimoitava arvo on, olemme kiinnostuneita siitä, onko "50 prosenttia" luottamusvälimme sisällä. Jos otoksessamme yleistä asevelvollisuutta kannattaa 68 prosenttia suomalaisista eikä luottamusväli ylety 50 prosenttiin asti, voidaan olla melko luottavaisia sen suhteen, että enemmistö suomalaisista kannattaa yleistä asevelvollisuutta.

Luottamusväli riippuu otoskoosta, luonnollisesti. Jos kysyt vain kolmelta satunnaiselta suomalaiselta mitä he ovat mieltä yleisestä asevelvollisuudesta ja kaksi heistä kannattaa sitä, on tämän perusteella vaikea luottaa siihen, että enemmistö kaikista suomalaisista on tätä mieltä.

Jos otoskoko on 1000 ja virhemarginaalit parin prosenttiyksikön luokkaa, niin yleensä saadaan selkeä näkemys suomalaisten enemmistön kannoista. Mutta jos sinua sattuu kiinnostamaan tiettyjen suomalaisryhmien kannat asioihin, tilanne on toinen. Väitteestä, että perussuomalaisten kannattajista enemmistö kannattaa tasa-arvoista avioliittolakia on tullut avioliittolain kannattajien toistelema talking point. Onko se totta?

Ensinnäkin, mitä enemmistö tarkoittaa? Tarkoittaako enemmistö sitä, että yli 50 prosenttia perussuomalaisten kannattajista kannattaa tasa-arvoista avioliittolakia vai sitä, että perussuomalaisten keskuudessa on enemmän avioliittolain kannattajia kuin vastustajia? Omasta mielestäni ensimmäinen näistä on parempi määritelmä, mutta jos jälkimmäinen on yleisempi tai yleistyy, niin mennään sillä.

Toiseksikin kysymyksenasetanta vaikuttaa helposti kyselyn tuloksiin. Tahdon2013-kampanja on (tietääkseni) toteuttanut kaksi kyselytutkimusta, ensimmäisen syksyllä 2013 ja jälkimmäisen keväällä 2014. Ensimmäisessä kysyttiin seuraava kysymys:

Tasa-arvoinen avioliitto tarkoittaisi, että myös samaa sukupuolta olevien oikeudesta avioliittoon säädettäisiin avioliittolaissa ja rekisteröidystä parisuhteesta luovuttaisiin. Laki ei kuitenkaan velvoita kirkkoa vihkimään samaa sukupuolta olevia pareja, sillä lakimuutos koskisi voimaantullessaan vain maistraatissa suoritettavaa vihkimistä. Kannatatteko tällaista avioliittolakia? 

Jälkimmäisessä kysyttiin kaksi kysymystä, edellisen lisäksi seuraava:

Kaikilla suomalaisilla on oikeus hakea adoptiota yksin seksuaalisesta suuntautumisesta riippumatta. Kansalaisaloite avioliittolain uudistamisesta haluaa mahdollistaa samaa sukupuolta olevalle parille oikeuden hakea adoptiota yhtä aikaa. Kannatatteko tällaista lakimuutosta? 

Molemmissa kysymyksissä on kehystäviä virkkeitä, jotka ovat luultavasti vaikuttaneet tuloksiin. Keskitytään kuitenkin perussuomalaisiin. Perussuomalaisten prosentit (kyllä/ei/eos) ensimmäisessä kyselyssä olivat 49/41/10 ja jälkimmäisessä kyselyssä 54/42/5 ensimmäisen kysymyksen osalta ja 44/54/2 toisen kysymyksen osalta. Näyttäisi siis, että osa perussuomalaisten kannattajista on Paula Risikon kehitysasteella, jossa homoliitot menevät läpi, mutta adoptio-oikeus hiertää. Jälleen on tulkintakysymyksiä sen suhteen, kumman kysymyksen prosenttien perusteella persujen kannatusta tasa-arvoiselle avioliittolaille/kansalaisaloitteelle pitäisi arvioida. Mutta puhutaan luottamusväleistä ja keskitytään jälkimmäiseen kyselyyn.

Kyselyyn haastateltiin noin 1000 suomalaista ja perussuomalaisten kannattajia otoksessa oli 118 kappaletta. Ja jos jatketaan 95 prosentin luottamustasolla, ei tietenkään voida sanoa, että enemmistö perussuomalaisista kannattaa tasa-arvoista avioliittolakia. Paitsi jos unohdetaan koko virhemarginaalien pointti.

Kun tarkastellaan tiettyjen asioiden kannatusta puolueittain, otoskoot menevät äkkiä hyvin pieniksi, luottamusvälit laveiksi eikä mitään oikeastaan voi sanoa varmaksi. Kristillisdemokraattien kannattajia otoksessa oli kokonaiset kymmenen kappaletta, ja rkp:n kannattajia 13. Tällaisilla otoksilla ei periaatteessa edes saisi laskea luottamusvälejä perinteisellä tavalla.

Mikä siis eteen? Otoskoon kasvattaminen auttaa. Inspiraatio tämän postauksen kirjoittamiseen tuli Vihreän langan äänestäjän liikkuvuutta kuvaavasta gallup-tutkimuksesta. Otoskoko on melko suuri, 5356, mutta niin sen pitääkin olla, jos haluaa tarkastella sitä, kuinka suuri osa puolueen x kannattajista kannatti aiemmin puoluetta y. Kaksinkertaisella pilkkomisella tulee pieniä siivuja.

Langan jutun mukaan suurimmat suhteelliset virrat kulkevat rkp:sta kokoomukseen ja kristillisdemokraateista keskustaan, 9 ja 8 prosenttia vastaavasti. Jos ajatellaan, että näiden puolueiden kannatusosuudet ovat noin 3,5 prosenttia ja että noin 60 prosenttia on osannut sanoa puoluekantansa edellisissä ja tulevissa vaaleissa, nämä suurimmat virrat muodostuvat kummassakin tapauksessa noin kymmenestä vastaajasta. Melko vähän, mutta 1000 haastatellulla asiat olisivat vielä huonommin.


Kaiken kaikkiaan tilastotiede on jokseenkin monimutkaista, mutta jos tiivistäisin tämän tekstin sanoman vielä seuraavasti:

  1. Jos sinulla on kaksi estimaattia, joihin liittyy epävarmuutta, niiden estimaattien erotukseen liittyy epävarmuutta. Tämä koskee niin eri puolueiden kannatusosuuksia yhdessä kyselyssä kuin puolueiden kannatusosuuksien muutoksia eri kyselyiden välillä.
  2. Mitä pienempää ryhmää tutkit niin sen pienempi on otoksesi ja mitä pienempi otos, sen isommat luottamusvälit. Älä kiinnitä kovinkaan paljoa huomiota siihen, mitä pienten puolueiden kannattajat ajattelevat. Facebook-kaverilistallasikin saattaa olla enemmän näiden puolueiden kannattajia kuin otoksessa (joskin valikoitumisesta saattaa koitua ongelmia).
  3. Tarkasta aina, millä sanamuodolla asiaa on kysytty, etenkin silloin kun kyse on asianosaisen teettämästä kyselystä.



Laskelmista ks. Wikipedia, Stat Trek. Jos jokin laskelma mietityttää, jätä viestiä niin avaan sitä, se voi hyvin olla laskettu väärin. Muutenkin ojenna, jos sanoin jotain hölmösti. En ole varsinaisesti opiskellut tilastotiedettä viiteen vuoteen, joten saatan olla ruosteessa. 

Lisäys: tarkkaan ottaen otsikko ei ole oikein - kyse ei ole otosten otoksista vaan otoksen osista. Sen siitä saa, kun postaa aamuyöllä.

Elvytys, riski ja sukupuoli

Aloitetaan ajatusleikillä.

Ajatellaan, että henkilö haluaa rakentaa talon ja hän voi rakentaa sen jokilaaksoon tai ylängölle. Tiedetään, että joki toisinaan tulvii ja aiheuttaa jokilaakson asujille vahinkoa. Miten varat tulvan vahinkojen korjaamiseen pitäisi kerätä? Onko väärin kerätä nämä varat samassa mitassa jokilaakson ja ylängön asukeilta, jos vain jokilaakson asukit hyötyvät tästä korjaamisesta ja he ovat ottaneet tietoisen riskin muuttaessaan jokilaaksoon?

Jatketaan toisella ajatusleikillä.

Ajatellaan, että henkilö haluaa sitouttaa pääomaa (joko finanssipääomaa tai inhimillistä pääomaa koulutuksen kautta) ja hän voi sitouttaa sitä joko rakennusalalle tai muualle talouteen. Tiedetään, että talouteen tulee toisinaan laskusuhdanteita ja nuo laskusuhdanteet aiheuttavat rakennusalalla enemmän vahinkoa kuin muualla taloudessa. Miten varat elvytykseen, laskusuhdanteiden vahinkojen korjaamiseen, pitäisi kerätä? Onko väärin kerätä nämä varat samassa mitassa sekä rakennusalalta että muualta taloudesta, jos rakennusala hyötyy elvytyksestä enemmän kuin muu talous?

Finanssisektorin kohdalla on tunnistettu yhteiskunnalliseksi ongelmaksi "kruuna, minä voitan, klaava, sinä häviät"-dynamiikka, jossa pankkisektori tahkoo suuria voittoja noususuhdanteessa ja laskusuhdanteessa pankkien tappiot katetaan veronmaksajien rahoista. Tätä ongelmaa on lähdetty euroalueella ratkomaan 55 miljardin euron suuruisella resoluutiorahastolla, joka on osa euroalueen yhteistä resoluutiomekanismia, jolla pyritään hoitamaan pankkien alasajo hallitusti. Miksi rakennusalan ei itse tarvitse rahoittaa omaa huonojen aikojen vakuutustaan?

Analogiat ovat hyviä siinä, että niiden kautta voi hahmottaa villakoiran ytimen. Missä kohdassa yllä esitetyt analogiat, jokilaakso-rakennusala ja pankkisektori-rakennusala menevät rikki? Ensimmäisen kohdalla yksi vastaus voisi olla finanssipolitiikan kerroinvaikutus. Elina Grundströmin tiistain HS-kolumni problematisoi sitä, että elvytystä toteutetaan pääsääntöisesti miesvaltaisten alojen kautta. Vastauksessaan tähän Sorsa-säätiön Hildur Boldt kirjoittaa, että elvytys auttaisi sekä naisia ja että miehiä:

Uudet investoinnit asuntorakentamiseen, raideliikenteeseen tai homekoulujen korjaamiseen eivät ole pois naisilta. Elvytyspolitiikan ei tarvitse olla nollasummapeliä infrastruktuurihankkeiden ja hyvinvointipalveluiden välillä.

Vaikka elvytys rahoittaisi itse itsensä (mitä se ei todennäköisesti tee) ja kaikkien voidaan ajatella voittavan, vaikuttaa todennäköiseltä, että hyödyt uusista investoinneista asuntorakentamiseen, raideliikenteeseen tai homekoulujen korjaamiseen menevät korostetusti miehille. Korostetusti suhteessa miesten osuuteen väestöstä ja korostetusti suhteessa siihen, mitä miehet maksavat veroja. Jos kerää rahaa kaikilta ja antaa sitä yhdelle, kerroinvaikutuksen pitäisi olla valtava jotta tästä seuraava vinoutuneisuus katoaisi.*

Kaksi huomiota kuitenkin kokonaiskuvasta. Ensinnäkin jos ajatellaan sukupuolen mukaista taloudellista eriarvoisuutta, suhdannepolitiikka ei liene tähän oikea instrumentti. Toiseksikin jos ajatellaan julkisten menojen sukupuolittuneita vaikutuksia, suhdannepolitiikka näyttelee vain pientä roolia verrattuna siihen, että julkinen sektori työllistää 16 prosenttia työssäkäyvistä miehistä kun vastaava luku naisten osalta on 40 prosenttia (lähde).

Henkilökohtaisesti minun on vaikea sanoa, kumpi itseäni tässä asiassa häiritsee enemmän: se että finanssipolitiikan vaikutusten sukupuolittuneisuus nostetaan esille vai se että tuo sukupuolittuneisuus laiskasti kielletään. Minusta on hauska pyöritellä suhdanteisiin ja eriarvoisuuteen liittyviä kysymyksiä, mutta jostain syystä niiden pohtiminen yhdessä tuntuu vaivaannuttavalta. Tämä tarkoittaa että tämä postaus on ehkä tavallista biasoituneempi ja että ojentavasta kommentista voi olla suurtakin hyötyä.


*Tehdään nopeita ja likaisia laskelmia perusoppikirjan keynesiläistä kerroinkehikkoa käyttäen. Ajatellaan, että rajakulutusalttius on c ja määritellään r, rakennusalan rajakulutusalttius (eli kun henkilö saa yhden lisäeuron, kuinka monta senttiä hän lisää rakennusalan tuottamien hyödykkeiden kulutustaan). Kokonaisuutenahan menoelvytyksen kerroin on 1/(1-c), kuten perusoppikirjassa opetetaan. Hieman veivaamalla voidaan laskea, että rakennusalan osuus kokonaiskysynnän lisäyksestä on 1-c-r. Jätä kommentti, jos haluat että avaan tuota veivausta.

No, kalibroidaan. Sanotaan, että c=0,4, mikä implikoi kokonaiskysynnän kertoimeksi 1,67. En halua tehdä alaviitteeseen alaviitettä, mutta huomaatte, miten perusoppikirjan kehikko määritellään kokonaiskysynnän eikä kokonaistuotannon kautta, mikä rikkoo vastaavuutta siihen, mistä yleensä puhutaan kertoimesta puhuttaessa. Hapuillaan ja sanotaan, että syrjäytysvaikutukset ovat lineaarisia ja että ne on sisällytetty tuohon arvoon 0,4. Sanotaan sitten, että 1,67 on finanssipolitiikan kerroinvaikutus. Ei paha.

No, miten kalibroidaan rakennusalan rajakulutusalttius? Vedetään hatusta ja sanotaan, että se on 0,04. 10 prosenttia lisäkulutuksesta menee rakennusalalle. c:n kokoluokka on paljon suurempi kuin r:n, joten r:llä ei ole niin suurta merkitystä kokonaiskuvan kannalta.

Näillä luvuilla rakennusala saisi 56 prosenttia elvytyksen hyödyistä.

Jos olisin töissä tutkimuslaitoksessa, voisin saada rahaa tällaisista laskelmista.

Blogiarkisto