Was Bevölkerungsumfragen wirklich über die Bevölkerung aussagen

Die US-Prä­si­dent­schafts­wah­len kamen anders her­aus, als von den meis­ten Pro­gnos­ti­kern ange­nom­men. Es ist nicht das ers­te Mal, dass bei viel­be­ach­te­ten Wah­len oder Abstim­mun­gen vie­le Umfra­gen ziem­lich dane­ben lagen. Dadurch sinkt das Ver­trau­en in Umfra­gen. Wie kann die­ses Ver­trau­en zurück­ge­won­nen wer­den? Davon han­delt mein Bei­trag.

aps_banner

Die Fra­ge, was Bevöl­ke­rungs­um­fra­gen über die Bevöl­ke­rung aus­sa­gen, hat durch die über­ra­schen­de und von den meis­ten Mei­nungs­for­schern nicht vor­her­ge­se­he­ne Wahl Donald Trumps an Bri­sanz gewon­nen. Sind (poli­ti­sche) Umfra­ge­wer­te seit­her tot, wie der kon­ser­va­ti­ve Poli­tik-Ana­lyst Mike Mur­phy in einem Kom­men­tar mein­te?

In der Tat ist es nicht das ers­te Mal, dass das Wäh­ler- und Stim­men­po­ten­zi­al rechts­kon­ser­va­ti­ver Par­tei­en oder Anlie­gen unter­schätzt wur­de – ob in Gross­bri­tan­ni­en, Deutsch­land oder Öster­reich. Und auch hier­zu­lan­de rieb man sich nach Abstim­mun­gen über SVP-Initia­ti­ven schon ver­wun­dert die Augen ob des uner­war­te­ten Resul­tats.

Ver­gleicht man etwa die in den Vox-Nach­be­fra­gun­gen ermit­tel­ten Resul­ta­te bei migra­ti­ons­po­li­ti­schen Vor­la­gen mit dem jewei­li­gen effek­ti­ven Resul­tat, so ent­de­cken wir teils erheb­li­che Dif­fe­ren­zen, die zudem ein­sei­tig zulas­ten des «rech­ten» (Protest-)Stimmenpotenzials aus­fal­len.

Bemerkung: Angegeben ist das Ausmass (in Prozentpunkten), mit der das migrationsskeptische Lager jeweils unterschätzt wurde.
Gründe, wieso manche Stimmbürger in Befragungen nicht mehr gehört werden

Ein sol­ches Mus­ter ist über­zu­fäl­lig. Wor­an liegt es aber, dass die­se Stim­men­den kein Gehör (mehr) in Umfra­gen fin­den? Liegt es am Stich­pro­ben­rah­men, an der Rea­li­sie­rung der Befra­gung, an der Gewich­tung oder zen­su­rie­ren sich die «Pro­test­stim­men­den» dadurch, dass sie sich Befra­gun­gen kon­se­quent ver­wei­gern, am Ende selbst?

Zur Beant­wor­tung die­ser Fra­ge muss ich ein wenig aus­ho­len. Die Kom­mu­ni­ka­ti­ons­ge­wohn­hei­ten der Men­schen haben sich in den ver­gan­ge­nen zwan­zig Jah­ren rasant gewan­delt. Die­ser Wan­del stell­te die Bran­che der Sozi­al­for­schungs­in­sti­tu­te vor nicht uner­heb­li­che Pro­ble­me.

1. Erreichbarkeit

Die «gol­de­nen» Zei­ten, in denen das offi­zi­el­le Tele­fon­ver­zeich­nis eine bei­na­he voll­stän­di­ge Lis­te der Grund­ge­samt­heit der Wohn­be­völ­ke­rung dar­stell­te, sind vor­bei – und dies wohl unwi­der­ruf­lich. Mobil­te­le­fo­nie und Inter­net ver­drän­gen die Fest­netz­te­le­fo­nie zuse­hends und der Weg­fall der Ein­trags­pflicht von Tele­fon­num­mern riss wei­te­re Lücken.

Der Stich­pro­ben­rah­men des Bun­des­am­tes für Sta­tis­tik (SRPH), der seit 2010 zur Ver­fü­gung steht, konn­te die­se Lücke zwar schlies­sen. Doch die Nut­zung die­ses Stich­pro­ben­rah­mens ist nur Erhe­bun­gen vor­be­hal­ten, die den strik­ten Kri­te­ri­en in Art. 13c, SR 431.012.1 genü­gen.

Kom­mer­zi­el­len Befra­gun­gen – und Vor­wahl­be­fra­gun­gen gehö­ren dazu – steht die­ser Stich­pro­ben­rah­men nicht zur Ver­fü­gung. Dar­über hin­aus wur­de damit ein wei­te­res und viel schwer­wie­gen­de­res Pro­blem von Befra­gun­gen nicht gelöst: Die hohen Ver­wei­ge­rungs­ra­ten.

2. Verweigerung

Ver­wei­ge­rung ist im Prin­zip nur dann ein Pro­blem, wenn sich die Befra­gungs­teil­neh­mer von jenen, die nicht teil­neh­men wol­len, auch sys­te­ma­tisch unter­schei­den. Tun sie das? Das lässt sich oft­mals erst im Nach­hin­ein beur­tei­len. Aber es leuch­tet sofort ein, dass zumin­dest das Risi­ko der Ver­zer­rung steigt, je höher die Ver­wei­ge­rungs­quo­te aus­fällt. Einer der Doy­ens der ame­ri­ka­ni­schen Umfra­ge­for­schung, Robert M. Gro­ves[1], sag­te dazu:

«The risk of fail­u­res of sur­veys to reflect the fac­ts increa­ses with fal­ling respon­se rates. The risk is not always rea­li­zed, but with the very low respon­se rates now com­mon, we should expect more falied pre­dic­tions based on sur­veys.»

Robert M. Gro­ves, Umfra­ge­for­scher

Wie hoch ist eine gera­de noch «akzep­ta­ble»  Aus­schöp­fungs­ra­te? Dazu gibt es nun (fast) so vie­le Mei­nun­gen wie Köp­fe. Auf­fal­lend ist jedoch, dass der Schwel­len­wert in den acht­zi­ger und neun­zi­ger Jah­ren deut­lich höher ange­setzt wur­de als in jün­ge­rer Zeit. Stell­ver­tre­tend dafür steht das fol­gen­de Zitat von Cliff Zukin, Pro­fes­sor für Public Poli­cy and Poli­ti­cal Sci­ence an der Rut­gers Uni­ver­si­ty und ehe­ma­li­ger Prä­si­dent der Ame­ri­can Asso­cia­ti­on for Public Opi­ni­on Rese­arch[2]:

«When I first star­ted doing tele­pho­ne sur­veys in New Jer­sey in the late 1970s, we con­si­de­red an 80 per­cent respon­se rate accep­ta­ble, and even then we wor­ried if the 20 per­cent we mis­sed were dif­fe­rent in atti­tu­des and beha­vi­ors than the 80 per­cent we got. Enter ans­we­ring machi­nes and other tech­no­lo­gies. By 1997, Pew’s respon­se rate was 36 per­cent, and the decli­ne has acce­le­ra­ted. By 2014 the respon­se rate had fal­len to 8 per­cent.»

Cliff Zukin, Umfra­ge­for­scher

Auch in der Schweiz haben Umfra­ge­insti­tu­te mit sin­ken­den Ant­wort­ra­ten zu kämp­fen. Sie lie­gen nicht unter zehn Pro­zent, aber Anlass zur Besorg­nis geben auch die Ant­wort­ra­ten bei Schwei­zer Umfra­gen. So ist etwa die Aus­schöp­fungs­quo­te bei den VOX-Nach­be­fra­gun­gen zwi­schen 2000 und 2016 von rund 40–45 Pro­zent auf etwa zwan­zig Pro­zent gefal­len.

Nun haben Stu­di­en auf­zei­gen kön­nen, dass Ant­wort­ra­ten und Daten­qua­li­tät nicht not­wen­di­ger­wei­se in einem linea­ren Ver­hält­nis zuein­an­der ste­hen. Man kann trotz ver­gleichs­wei­se tie­fen Aus­schöp­fungs­ra­ten eine hohe Daten­qua­li­tät erzie­len[3].

Aber bei Ant­wort­ra­ten von unter zehn Pro­zent fällt es schwer zu glau­ben (und noch viel schwe­rer, dies Jour­na­lis­ten und Kon­su­men­ten von demo­sko­pi­schen Resul­ta­ten wei­ter­zu­ver­mit­teln), dass die Ver­wei­ge­rung nicht sys­te­ma­tisch erfolgt. Im Gegen­teil: Ange­sichts der tie­fen Ant­wort­ra­ten sind die Teil­neh­men­den an Umfra­gen bei­na­he schon als Extrem­po­pu­la­ti­on zu betrach­ten.  

Wie man die Datenqualität verbessern kann

Lässt sich Reme­dur schaf­fen? Eine Mög­lich­keit, Non­re­spon­se zu ver­rin­gern, besteht dar­in, die Koope­ra­ti­ons­be­reit­schaft zu erhö­hen – bei­spiels­wei­se durch Anrei­ze. Sol­che Anrei­ze sind meist mate­ri­el­ler Natur, etwa ein Gut­schein von 10 Fran­ken. Sol­che Inzen­ti­vie­rungs­mass­nah­men haben durch­aus Erfolg und wir­ken sich nach­weis­lich posi­tiv auf die Daten­qua­li­tät aus. Aller­dings ist damit ein ver­gleichs­wei­se hoher Auf­wand und ent­spre­chen­de Kos­ten ver­bun­den. Vie­le Medi­en­häu­ser kön­nen oder wol­len kei­ne sol­chen Kos­ten nicht tra­gen.

Eine ande­re, weni­ger «kost­spie­li­ge» Metho­de, ist die nach­träg­li­che Feh­ler­kor­rek­tur, sprich die Gewich­tung von Daten.[4] Gewich­tun­gen kön­nen vie­le der oben genann­ten Pro­ble­me lin­dern und ermög­li­chen unter Umstän­den prä­zi­se Schät­zun­gen.[5] Aber auch Gewich­tun­gen sind kein All­heil­mit­tel.

Um eine Gewich­tung vor­neh­men zu kön­nen, braucht es zunächst ent­spre­chen­de Infor­ma­tio­nen über die Grund­ge­samt­heit. Die­se sind längst nicht immer vor­han­den. Wenn man etwa eine Stich­pro­be von vor­aus­sicht­lich an den Wah­len Teil­neh­men­den nach Alter und Geschlecht gewich­ten will, so muss man streng­ge­nom­men wis­sen, wie sich der Stimm­kör­per (vor­aus­sicht­lich) nach Alter und Geschlecht zusam­men­set­zen wird.

Woher aber soll man das wis­sen? Modell­schät­zun­gen auf­grund von Regis­ter­da­ten mögen da allen­falls wei­ter­hel­fen. Auf jeden Fall aber ist die Gewich­tung nicht nur pro­fa­nes Hand­werk, son­dern setzt aller­lei Annah­men vor­aus, die – wie jede Hypo­the­se – zutref­fend sein kön­nen oder auch nicht. Des Wei­te­ren kann eine (unsorg­fäl­ti­ge) Gewich­tung unter Umstän­den absur­de Effek­te erzeu­gen, wie das Bei­spiel des inzwi­schen zu einer gewis­sen Berühmt­heit gelang­ten 19-Jäh­ri­gen Teen­agers aus Illi­nois zeigt, der dadurch, dass ihm in einer Panel-Befra­gung[6] das 30-fache Gewicht eines durch­schnitt­li­chen Befrag­ten zuge­wie­sen wur­de, am Ende gar die gesam­te Schät­zung mass­geb­lich beein­flus­sen konn­te.

 Wie begegnet man der Verweigerung?

All das wird jedoch nicht genü­gen, um die Inter­view­ver­wei­ge­rung von Anti-Estab­lish­ment-Wäh­len­den zu kor­ri­gie­ren. Und genau ihr Stim­men­po­ten­ti­al ist es, wel­ches mit hoher Regel­mäs­sig­keit unter­schätzt wird. Doch war­um ver­wei­gert sich die­se Grup­pe von Wäh­len­den den Befra­gun­gen kon­se­quent? Die Ant­wort lau­tet, so ist zumin­dest zu ver­mu­ten: Sie hal­ten Umfra­gen für ein (Manipulations-)Instrument des unge­lieb­ten Estab­lish­ments. Bereits im Vor­feld der Wah­len beschwer­ten sich des­halb auch vie­le Trump-Anhän­ger über die ihrer Ansicht nach gefälsch­ten und zurecht­ge­bo­ge­nen Umfra­ge­re­sul­ta­te.

Nach der Wahl waren sie davon noch über­zeug­ter als zuvor. Sie sahen ihren Ver­dacht durch das Ergeb­nis bestä­tigt. Auch in Euro­pa hören wir den­sel­ben Vor­wurf oft und in aller Regel eben­falls von rech­ter Sei­te. Und auch hier kommt es nicht sel­ten dazu, dass sich die «Umfra­ge­ver­dros­se­nen» anschlies­send durch die Wahl­er­geb­nis­se in ihrem Ver­dacht aber­mals bestä­tigt sehen. Um die­sem Pro­blem bei­zu­kom­men, gibt es nur ein Rezept: Das Ver­trau­en in Befra­gun­gen muss zurück­ge­won­nen wer­den. Wie? Ers­tens: Die (Vor-)Umfragen müs­sen genau­er wer­den. Zwei­tens: Es muss mehr Trans­pa­renz geschaf­fen wer­den. Ein Anfang wür­de dar­in bestehen, die Daten zu ver­öf­fent­li­chen.


Refe­ren­zen und Anmer­kun­gen:

  • [1] Zit. in: Bar­des, Bar­ba­ra und Robert W. Olden­dick (2016). Public Opi­ni­on: Mea­su­ring the Ame­ri­can Mind. 5th Edi­ti­on. Lon­don: Row­man & Little­field.
  • [2] http://www.nytimes.com/2015/06/21/opinion/sunday/whats-the-matter-with-polling.html?_r=0
  • [3] Gro­ves, Robert M., Floyd J. Fow­ler, Mick P. Cou­per, James M. Lep­kow­ski, Elea­nor Sin­ger und Roger Tou­r­ange­au. 2009. Sur­vey Metho­do­lo­gy. Zwei­te Edi­ti­on. Hobo­ken, NJ: John Wiley & Sons.
  • [4] So gut wie alle Umfra­ge­da­ten wer­den heut­zu­ta­ge gewich­tet. Im Übri­gen: Eine Gewich­tung ist eine Kor­rek­tur und dem­nach nur dann nötig, wenn Kor­rek­tur­be­darf besteht — dem­nach eine Ver­zer­rung (Non­re­spon­se) vor­liegt. Sind die Befra­gungs­da­ten unver­zerrt, erüb­rigt sich selbst­re­dend eine Kor­rek­tur. Der Umstand, dass fast über­all gewich­tet wird, deu­tet dar­auf hin, dass sol­che Ver­zer­run­gen weit ver­brei­tet sind – wei­ter als man ange­sichts der häu­fi­gen Selbst­de­kla­ra­ti­on als «reprä­sen­ta­ti­ve Befra­gung» mei­nen könn­te.
  • [5] Wang, W., D. Roth­schild, S. Goel und A. Gel­man (2015). Fore­cas­ting elec­tions with non-rep­re­sen­ta­ti­ve polls. Inter­na­tio­nal Jour­nal of Fore­cas­ting.
  • [6] Bei die­ser Panel­be­fra­gung han­delt es sich um den Day­break Poll von USC Dornsife/LA Times – also aus­ge­rech­net jene Befra­gung, die als eine der Weni­gen am Ende auf der rich­ti­gen Sei­te lag. Sie hat­ten einen Wahl­sieg Trumps vor­her­ge­sagt. Son­der­lich genau war die­se Befra­gung im Übri­gen nicht. Sie lag auf natio­na­ler Ebe­ne klar dane­ben, denn Hil­la­ry Clin­ton erziel­te natio­nal die höhe­ren Wäh­ler­an­tei­le als Donald Trump. Eines hat­te die­se Befra­gung jedoch ande­ren vor­aus: Die Daten wur­den öffent­lich zugäng­lich gemacht.

Gra­phi­ken: Salim Brüg­ge­mann

Print Friendly, PDF & Email