En tiedä, mistä juontaa juurensa tapa raportoida virhemarginaalit kannatusosuuksille. Se vaikuttaa ontolta rituaalilta. Lausutaan Symbolum Apostolicum ja ajatellaan että sielu on pelastettu, vaikka latinan ymmärrys on niin ja näin eikä oikein sisäistetä, mikä niiden kummallisten sanojen pointti oli tai miten niiden pitäisi ohjata toimintaa. Lausutaan, koska latinaa puhuvat viisaat käskevät lausumaan ja muutkin lausuvat.
Käyn tässä postauksessa läpi gallupeja ja niiden tulkintaa. Koetan pitää tilastotieteen kevyenä ja jättää toiseen kertaan p-arvojen ja luottamusvälien oikeat ja väärät tulkinnat. Hyvin yleisellä tasolla siis, mitä virhemarginaali tarkoittaa? Virhemarginaali määrittelee luottamusvälin, joka kuvaa otoksesta saadun estimaatin luotettavuutta. Estimaatti on vain sana sille, että arvioidaan jotain tuntematonta. Arvot kokoomuksen kannatuksesta luottamusvälin puitteissa ovat hyviä arvioita siitä, mikä kokoomuksen kannatus on koko kansan keskuudessa.
Luottamusvälin määräytymisessä tärkeässä osassa on luottamustason valinta. Puhutaan esimerkiksi 95 prosentin luottamustasosta, mikä tarkoittaa sitä että jos toistaisimme otosta 95 prosenttia generoiduista luottamusväleistä - jotka vaihtelevat otoksesta toiseen - pitäisivät sisällään kokoomuksen todellisen kannatusluvun.
Älä huoli, jos ei avautunut. Ehkä esimerkit auttavat. Otetaan luottamustaso annettuna ja katsotaan, miten erilaisiin gallup-lukuihin voi luottaa.
1. Onko puolueen kannatus todellakin noussut?
Tässä on melko tyypillistä gallup-uutisointia Hesarista elokuun lopulta:
HS:n tuoreen kannatusmittauksen mukaan kokoomus on onnistunut kansalaisten vakuuttamisessa paremmin kuin keskusta ja perussuomalaiset, joiden kannatus on laskenut kesän aikana. Kokoomuksen kannatus on noussut touko-kesäkuun kyselyn 20,5 prosentista 22,1 prosenttiin. Se on korkein kokoomuksen kannatus HS:n kyselyssä sitten huhtikuun 2012.
On kaksi estimaattia, yksi kokoomuksen touko-kesäkuun kannatukselle ja toinen kokoomuksen elokuun kannatukselle. Gallup-lukema elokuulle on 22,1 prosenttia ja touko-kesäkuulle 20,5 prosenttia. Uutisessa raportoidaan tunnollisesti elokuun luvun virhemarginaali. Mutta miten luotettava on arvio siitä, että kokoomuksen kannatus on noussut? Entä jos kokoomuksen kannatus olikin touko-kesäkuussa yhtä suuri tai jopa suurempi kuin elokuussa, ja nämä kaksi otosta vain sattuivat näyttämään tällä kertaa tältä?
Jos noudatetaan samaa 95 prosentin luottamustasoa, jolla virhemarginaalit on laskettu, ei voida sanoa, että kokoomuksen kannatus on noussut. Ja tässä tulee esiin se, että virhemarginaalien raportointi on lähinnä ontto rituaali. Jos todella uskoisi virhemarginaaleihin, ei voisi kirjoittaa kokoomuksen kannatuksen kasvaneen. Ja oikeastaan HS:n toimittajat ovat tässä tarkkoja, koska he eivät niin kirjoitakaan. Uutisessa puhutaan vain kyselyiden kannatuslukujen kasvusta. Itse asiassa muutosten tilastolliseen merkitsevyyteen jutussa viitataan keskustan kannatuslukujen osalta.
Kesän aikana keskustan kannatus on laskenut 20,3 prosentista 19,9 prosenttiin, mutta muutos ei ole tilastollisesti merkittävä.
Olisi tietenkin ollut vaikea kirjoittaa yllä linkitetty juttu, jos siihen olisi liittänyt vastaavan lauseen kokoomuksen kannatuksesta. On varmasti vaikea kirjoittaa yhtään mitään juttua, jos yhtään mikään muutos ei ole tilastollisesti merkitsevä.
2. Kannattaako enemmistö perussuomalaisista todellakin tasa-arvoista avioliittolakia?
Monesti meitä kiinnostaa se, onko tietyn asian kannatus yli vai alle 50 prosenttia. Koska luottamusväli kuvaa sitä hyviä arvioita siitä, mikä estimoitava arvo on, olemme kiinnostuneita siitä, onko "50 prosenttia" luottamusvälimme sisällä. Jos otoksessamme yleistä asevelvollisuutta kannattaa 68 prosenttia suomalaisista eikä luottamusväli ylety 50 prosenttiin asti, voidaan olla melko luottavaisia sen suhteen, että enemmistö suomalaisista kannattaa yleistä asevelvollisuutta.
Luottamusväli riippuu otoskoosta, luonnollisesti. Jos kysyt vain kolmelta satunnaiselta suomalaiselta mitä he ovat mieltä yleisestä asevelvollisuudesta ja kaksi heistä kannattaa sitä, on tämän perusteella vaikea luottaa siihen, että enemmistö kaikista suomalaisista on tätä mieltä.
Jos otoskoko on 1000 ja virhemarginaalit parin prosenttiyksikön luokkaa, niin yleensä saadaan selkeä näkemys suomalaisten enemmistön kannoista. Mutta jos sinua sattuu kiinnostamaan tiettyjen suomalaisryhmien kannat asioihin, tilanne on toinen. Väitteestä, että perussuomalaisten kannattajista enemmistö kannattaa tasa-arvoista avioliittolakia on tullut avioliittolain kannattajien toistelema talking point. Onko se totta?
Ensinnäkin, mitä enemmistö tarkoittaa? Tarkoittaako enemmistö sitä, että yli 50 prosenttia perussuomalaisten kannattajista kannattaa tasa-arvoista avioliittolakia vai sitä, että perussuomalaisten keskuudessa on enemmän avioliittolain kannattajia kuin vastustajia? Omasta mielestäni ensimmäinen näistä on parempi määritelmä, mutta jos jälkimmäinen on yleisempi tai yleistyy, niin mennään sillä.
Toiseksikin kysymyksenasetanta vaikuttaa helposti kyselyn tuloksiin. Tahdon2013-kampanja on (tietääkseni) toteuttanut kaksi kyselytutkimusta, ensimmäisen syksyllä 2013 ja jälkimmäisen keväällä 2014. Ensimmäisessä kysyttiin seuraava kysymys:
Tasa-arvoinen avioliitto tarkoittaisi, että myös samaa sukupuolta olevien oikeudesta avioliittoon säädettäisiin avioliittolaissa ja rekisteröidystä parisuhteesta luovuttaisiin. Laki ei kuitenkaan velvoita kirkkoa vihkimään samaa sukupuolta olevia pareja, sillä lakimuutos koskisi voimaantullessaan vain maistraatissa suoritettavaa vihkimistä. Kannatatteko tällaista avioliittolakia?
Jälkimmäisessä kysyttiin kaksi kysymystä, edellisen lisäksi seuraava:
Kaikilla suomalaisilla on oikeus hakea adoptiota yksin seksuaalisesta suuntautumisesta riippumatta. Kansalaisaloite avioliittolain uudistamisesta haluaa mahdollistaa samaa sukupuolta olevalle parille oikeuden hakea adoptiota yhtä aikaa. Kannatatteko tällaista lakimuutosta?
Molemmissa kysymyksissä on kehystäviä virkkeitä, jotka ovat luultavasti vaikuttaneet tuloksiin. Keskitytään kuitenkin perussuomalaisiin. Perussuomalaisten prosentit (kyllä/ei/eos) ensimmäisessä kyselyssä olivat 49/41/10 ja jälkimmäisessä kyselyssä 54/42/5 ensimmäisen kysymyksen osalta ja 44/54/2 toisen kysymyksen osalta. Näyttäisi siis, että osa perussuomalaisten kannattajista on Paula Risikon kehitysasteella, jossa homoliitot menevät läpi, mutta adoptio-oikeus hiertää. Jälleen on tulkintakysymyksiä sen suhteen, kumman kysymyksen prosenttien perusteella persujen kannatusta tasa-arvoiselle avioliittolaille/kansalaisaloitteelle pitäisi arvioida. Mutta puhutaan luottamusväleistä ja keskitytään jälkimmäiseen kyselyyn.
Kyselyyn haastateltiin noin 1000 suomalaista ja perussuomalaisten kannattajia otoksessa oli 118 kappaletta. Ja jos jatketaan 95 prosentin luottamustasolla, ei tietenkään voida sanoa, että enemmistö perussuomalaisista kannattaa tasa-arvoista avioliittolakia. Paitsi jos unohdetaan koko virhemarginaalien pointti.
Kun tarkastellaan tiettyjen asioiden kannatusta puolueittain, otoskoot menevät äkkiä hyvin pieniksi, luottamusvälit laveiksi eikä mitään oikeastaan voi sanoa varmaksi. Kristillisdemokraattien kannattajia otoksessa oli kokonaiset kymmenen kappaletta, ja rkp:n kannattajia 13. Tällaisilla otoksilla ei periaatteessa edes saisi laskea luottamusvälejä perinteisellä tavalla.
Mikä siis eteen? Otoskoon kasvattaminen auttaa. Inspiraatio tämän postauksen kirjoittamiseen tuli Vihreän langan äänestäjän liikkuvuutta kuvaavasta gallup-tutkimuksesta. Otoskoko on melko suuri, 5356, mutta niin sen pitääkin olla, jos haluaa tarkastella sitä, kuinka suuri osa puolueen x kannattajista kannatti aiemmin puoluetta y. Kaksinkertaisella pilkkomisella tulee pieniä siivuja.
Langan jutun mukaan suurimmat suhteelliset virrat kulkevat rkp:sta kokoomukseen ja kristillisdemokraateista keskustaan, 9 ja 8 prosenttia vastaavasti. Jos ajatellaan, että näiden puolueiden kannatusosuudet ovat noin 3,5 prosenttia ja että noin 60 prosenttia on osannut sanoa puoluekantansa edellisissä ja tulevissa vaaleissa, nämä suurimmat virrat muodostuvat kummassakin tapauksessa noin kymmenestä vastaajasta. Melko vähän, mutta 1000 haastatellulla asiat olisivat vielä huonommin.
Kaiken kaikkiaan tilastotiede on jokseenkin monimutkaista, mutta jos tiivistäisin tämän tekstin sanoman vielä seuraavasti:
- Jos sinulla on kaksi estimaattia, joihin liittyy epävarmuutta, niiden estimaattien erotukseen liittyy epävarmuutta. Tämä koskee niin eri puolueiden kannatusosuuksia yhdessä kyselyssä kuin puolueiden kannatusosuuksien muutoksia eri kyselyiden välillä.
- Mitä pienempää ryhmää tutkit niin sen pienempi on otoksesi ja mitä pienempi otos, sen isommat luottamusvälit. Älä kiinnitä kovinkaan paljoa huomiota siihen, mitä pienten puolueiden kannattajat ajattelevat. Facebook-kaverilistallasikin saattaa olla enemmän näiden puolueiden kannattajia kuin otoksessa (joskin valikoitumisesta saattaa koitua ongelmia).
- Tarkasta aina, millä sanamuodolla asiaa on kysytty, etenkin silloin kun kyse on asianosaisen teettämästä kyselystä.
Laskelmista ks. Wikipedia, Stat Trek. Jos jokin laskelma mietityttää, jätä viestiä niin avaan sitä, se voi hyvin olla laskettu väärin. Muutenkin ojenna, jos sanoin jotain hölmösti. En ole varsinaisesti opiskellut tilastotiedettä viiteen vuoteen, joten saatan olla ruosteessa.
Lisäys: tarkkaan ottaen otsikko ei ole oikein - kyse ei ole otosten otoksista vaan otoksen osista. Sen siitä saa, kun postaa aamuyöllä.