Was Bevölkerungsumfragen wirklich über die Bevölkerung aussagen

Die US-Präsi­dentschaftswahlen kamen anders her­aus, als von den meis­ten Prog­nos­tik­ern angenom­men. Es ist nicht das erste Mal, dass bei viel­beachteten Wahlen oder Abstim­mungen viele Umfra­gen ziem­lich daneben lagen. Dadurch sinkt das Ver­trauen in Umfra­gen. Wie kann dieses Ver­trauen zurück­ge­won­nen wer­den? Davon han­delt mein Beitrag.

aps_banner

Die Frage, was Bevölkerung­sum­fra­gen über die Bevölkerung aus­sagen, hat durch die über­raschende und von den meis­ten Mei­n­ungs­forsch­ern nicht vorherge­se­hene Wahl Don­ald Trumps an Brisanz gewon­nen. Sind (poli­tis­che) Umfragew­erte sei­ther tot, wie der kon­ser­v­a­tive Poli­tik-Ana­lyst Mike Mur­phy in einem Kom­men­tar meinte?

In der Tat ist es nicht das erste Mal, dass das Wäh­ler- und Stim­men­poten­zial recht­skon­ser­v­a­tiv­er Parteien oder Anliegen unter­schätzt wurde – ob in Gross­bri­tan­nien, Deutsch­land oder Öster­re­ich. Und auch hierzu­lande rieb man sich nach Abstim­mungen über SVP-Ini­tia­tiv­en schon ver­wun­dert die Augen ob des uner­warteten Resul­tats.

Ver­gle­icht man etwa die in den Vox-Nach­be­fra­gun­gen ermit­tel­ten Resul­tate bei migra­tionspoli­tis­chen Vor­la­gen mit dem jew­eili­gen effek­tiv­en Resul­tat, so ent­deck­en wir teils erhe­bliche Dif­feren­zen, die zudem ein­seit­ig zulas­ten des «recht­en» (Protest-)Stimmenpotenzials aus­fall­en.

Bemerkung: Angegeben ist das Ausmass (in Prozentpunkten), mit der das migrationsskeptische Lager jeweils unterschätzt wurde.
Gründe, wieso manche Stimmbürger in Befragungen nicht mehr gehört werden

Ein solch­es Muster ist überzufäl­lig. Woran liegt es aber, dass diese Stim­menden kein Gehör (mehr) in Umfra­gen find­en? Liegt es am Stich­proben­rah­men, an der Real­isierung der Befra­gung, an der Gewich­tung oder zen­suri­eren sich die «Protest­stim­menden» dadurch, dass sie sich Befra­gun­gen kon­se­quent ver­weigern, am Ende selb­st?

Zur Beant­wor­tung dieser Frage muss ich ein wenig aus­holen. Die Kom­mu­nika­tion­s­ge­wohn­heit­en der Men­schen haben sich in den ver­gan­genen zwanzig Jahren ras­ant gewan­delt. Dieser Wan­del stellte die Branche der Sozial­forschungsin­sti­tute vor nicht uner­he­bliche Prob­leme.

1. Erreichbarkeit

Die «gold­e­nen» Zeit­en, in denen das offizielle Tele­fon­verze­ich­nis eine beina­he voll­ständi­ge Liste der Grundge­samtheit der Wohn­bevölkerung darstellte, sind vor­bei – und dies wohl unwider­ru­flich. Mobil­tele­fonie und Inter­net ver­drän­gen die Fes­t­net­ztele­fonie zuse­hends und der Weg­fall der Ein­tragspflicht von Tele­fon­num­mern riss weit­ere Lück­en.

Der Stich­proben­rah­men des Bun­de­samtes für Sta­tis­tik (SRPH), der seit 2010 zur Ver­fü­gung ste­ht, kon­nte diese Lücke zwar schliessen. Doch die Nutzung dieses Stich­proben­rah­mens ist nur Erhe­bun­gen vor­be­hal­ten, die den strik­ten Kri­te­rien in Art. 13c, SR 431.012.1 genü­gen.

Kom­merziellen Befra­gun­gen – und Vor­wahlbe­fra­gun­gen gehören dazu – ste­ht dieser Stich­proben­rah­men nicht zur Ver­fü­gung. Darüber hin­aus wurde damit ein weit­eres und viel schw­er­wiegen­deres Prob­lem von Befra­gun­gen nicht gelöst: Die hohen Ver­weigerungsrat­en.

2. Verweigerung

Ver­weigerung ist im Prinzip nur dann ein Prob­lem, wenn sich die Befra­gung­steil­nehmer von jenen, die nicht teil­nehmen wollen, auch sys­tem­a­tisch unter­schei­den. Tun sie das? Das lässt sich oft­mals erst im Nach­hinein beurteilen. Aber es leuchtet sofort ein, dass zumin­d­est das Risiko der Verz­er­rung steigt, je höher die Ver­weigerungsquote aus­fällt. Ein­er der Doyens der amerikanis­chen Umfrage­forschung, Robert M. Groves[1], sagte dazu:

«The risk of fail­ures of sur­veys to reflect the facts increas­es with falling response rates. The risk is not always real­ized, but with the very low response rates now com­mon, we should expect more falied pre­dic­tions based on sur­veys.»

Robert M. Groves, Umfrage­forsch­er

Wie hoch ist eine ger­ade noch «akzept­able»  Auss­chöp­fungsrate? Dazu gibt es nun (fast) so viele Mei­n­un­gen wie Köpfe. Auf­fal­l­end ist jedoch, dass der Schwellen­wert in den achtziger und neun­ziger Jahren deut­lich höher ange­set­zt wurde als in jün­ger­er Zeit. Stel­lvertre­tend dafür ste­ht das fol­gende Zitat von Cliff Zukin, Pro­fes­sor für Pub­lic Pol­i­cy and Polit­i­cal Sci­ence an der Rut­gers Uni­ver­si­ty und ehe­ma­liger Präsi­dent der Amer­i­can Asso­ci­a­tion for Pub­lic Opin­ion Research[2]:

«When I first start­ed doing tele­phone sur­veys in New Jer­sey in the late 1970s, we con­sid­ered an 80 per­cent response rate accept­able, and even then we wor­ried if the 20 per­cent we missed were dif­fer­ent in atti­tudes and behav­iors than the 80 per­cent we got. Enter answer­ing machines and oth­er tech­nolo­gies. By 1997, Pew’s response rate was 36 per­cent, and the decline has accel­er­at­ed. By 2014 the response rate had fall­en to 8 per­cent.»

Cliff Zukin, Umfrage­forsch­er

Auch in der Schweiz haben Umfrage­in­sti­tute mit sink­enden Antwor­trat­en zu kämpfen. Sie liegen nicht unter zehn Prozent, aber Anlass zur Besorg­nis geben auch die Antwor­trat­en bei Schweiz­er Umfra­gen. So ist etwa die Auss­chöp­fungsquote bei den VOX-Nach­be­fra­gun­gen zwis­chen 2000 und 2016 von rund 40–45 Prozent auf etwa zwanzig Prozent gefall­en.

Nun haben Stu­di­en aufzeigen kön­nen, dass Antwor­trat­en und Daten­qual­ität nicht notwendi­ger­weise in einem lin­earen Ver­hält­nis zueinan­der ste­hen. Man kann trotz ver­gle­ich­sweise tiefen Auss­chöp­fungsrat­en eine hohe Daten­qual­ität erzie­len[3].

Aber bei Antwor­trat­en von unter zehn Prozent fällt es schw­er zu glauben (und noch viel schw­er­er, dies Jour­nal­is­ten und Kon­sumenten von demoskopis­chen Resul­tat­en weit­erzu­ver­mit­teln), dass die Ver­weigerung nicht sys­tem­a­tisch erfol­gt. Im Gegen­teil: Angesichts der tiefen Antwor­trat­en sind die Teil­nehmenden an Umfra­gen beina­he schon als Extrem­pop­u­la­tion zu betra­cht­en.  

Wie man die Datenqualität verbessern kann

Lässt sich Reme­dur schaf­fen? Eine Möglichkeit, Non­re­sponse zu ver­ringern, beste­ht darin, die Koop­er­a­tions­bere­itschaft zu erhöhen – beispiel­sweise durch Anreize. Solche Anreize sind meist materieller Natur, etwa ein Gutschein von 10 Franken. Solche Inzen­tivierungs­mass­nah­men haben dur­chaus Erfolg und wirken sich nach­weis­lich pos­i­tiv auf die Daten­qual­ität aus. Allerd­ings ist damit ein ver­gle­ich­sweise hoher Aufwand und entsprechende Kosten ver­bun­den. Viele Medi­en­häuser kön­nen oder wollen keine solchen Kosten nicht tra­gen.

Eine andere, weniger «kost­spielige» Meth­ode, ist die nachträgliche Fehlerko­r­rek­tur, sprich die Gewich­tung von Dat­en.[4] Gewich­tun­gen kön­nen viele der oben genan­nten Prob­leme lin­dern und ermöglichen unter Umstän­den präzise Schätzun­gen.[5] Aber auch Gewich­tun­gen sind kein All­heilmit­tel.

Um eine Gewich­tung vornehmen zu kön­nen, braucht es zunächst entsprechende Infor­ma­tio­nen über die Grundge­samtheit. Diese sind längst nicht immer vorhan­den. Wenn man etwa eine Stich­probe von voraus­sichtlich an den Wahlen Teil­nehmenden nach Alter und Geschlecht gewicht­en will, so muss man strenggenom­men wis­sen, wie sich der Stimmkör­p­er (voraus­sichtlich) nach Alter und Geschlecht zusam­menset­zen wird.

Woher aber soll man das wis­sen? Mod­ellschätzun­gen auf­grund von Reg­is­ter­dat­en mögen da allen­falls weit­er­helfen. Auf jeden Fall aber ist die Gewich­tung nicht nur pro­fanes Handw­erk, son­dern set­zt aller­lei Annah­men voraus, die – wie jede Hypothese – zutr­e­f­fend sein kön­nen oder auch nicht. Des Weit­eren kann eine (unsorgfältige) Gewich­tung unter Umstän­den absurde Effek­te erzeu­gen, wie das Beispiel des inzwis­chen zu ein­er gewis­sen Berühmtheit gelangten 19-Jähri­gen Teenagers aus Illi­nois zeigt, der dadurch, dass ihm in ein­er Pan­el-Befra­gung[6] das 30-fache Gewicht eines durch­schnit­tlichen Befragten zugewiesen wurde, am Ende gar die gesamte Schätzung mass­ge­blich bee­in­flussen kon­nte.

 Wie begegnet man der Verweigerung?

All das wird jedoch nicht genü­gen, um die Inter­viewver­weigerung von Anti-Estab­lish­ment-Wäh­len­den zu kor­rigieren. Und genau ihr Stim­men­po­ten­tial ist es, welch­es mit hoher Regelmäs­sigkeit unter­schätzt wird. Doch warum ver­weigert sich diese Gruppe von Wäh­len­den den Befra­gun­gen kon­se­quent? Die Antwort lautet, so ist zumin­d­est zu ver­muten: Sie hal­ten Umfra­gen für ein (Manipulations-)Instrument des ungeliebten Estab­lish­ments. Bere­its im Vor­feld der Wahlen beschw­erten sich deshalb auch viele Trump-Anhänger über die ihrer Ansicht nach gefälscht­en und zurecht­ge­bo­ge­nen Umfragere­sul­tate.

Nach der Wahl waren sie davon noch überzeugter als zuvor. Sie sahen ihren Ver­dacht durch das Ergeb­nis bestätigt. Auch in Europa hören wir densel­ben Vor­wurf oft und in aller Regel eben­falls von rechter Seite. Und auch hier kommt es nicht sel­ten dazu, dass sich die «Umfragever­drosse­nen» anschliessend durch die Wahlergeb­nisse in ihrem Ver­dacht aber­mals bestätigt sehen. Um diesem Prob­lem beizukom­men, gibt es nur ein Rezept: Das Ver­trauen in Befra­gun­gen muss zurück­ge­won­nen wer­den. Wie? Erstens: Die (Vor-)Umfragen müssen genauer wer­den. Zweit­ens: Es muss mehr Trans­parenz geschaf­fen wer­den. Ein Anfang würde darin beste­hen, die Dat­en zu veröf­fentlichen.


Ref­eren­zen und Anmerkun­gen:

  • [1] Zit. in: Bardes, Bar­bara und Robert W. Old­en­dick (2016). Pub­lic Opin­ion: Mea­sur­ing the Amer­i­can Mind. 5th Edi­tion. Lon­don: Row­man & Lit­tle­field.
  • [2] http://www.nytimes.com/2015/06/21/opinion/sunday/whats-the-matter-with-polling.html?_r=0
  • [3] Groves, Robert M., Floyd J. Fowler, Mick P. Couper, James M. Lep­kows­ki, Eleanor Singer und Roger Tourangeau. 2009. Sur­vey Method­ol­o­gy. Zweite Edi­tion. Hobo­ken, NJ: John Wiley & Sons.
  • [4] So gut wie alle Umfrage­dat­en wer­den heutzu­tage gewichtet. Im Übri­gen: Eine Gewich­tung ist eine Kor­rek­tur und dem­nach nur dann nötig, wenn Kor­rek­turbe­darf beste­ht — dem­nach eine Verz­er­rung (Non­re­sponse) vor­liegt. Sind die Befra­gungs­dat­en unverz­er­rt, erübrigt sich selb­stre­dend eine Kor­rek­tur. Der Umstand, dass fast über­all gewichtet wird, deutet darauf hin, dass solche Verz­er­run­gen weit ver­bre­it­et sind – weit­er als man angesichts der häu­fi­gen Selb­st­dekla­ra­tion als «repräsen­ta­tive Befra­gung» meinen kön­nte.
  • [5] Wang, W., D. Roth­schild, S. Goel und A. Gel­man (2015). Fore­cast­ing elec­tions with non-rep­re­sen­ta­tive polls. Inter­na­tion­al Jour­nal of Fore­cast­ing.
  • [6] Bei dieser Pan­el­be­fra­gung han­delt es sich um den Day­break Poll von USC Dornsife/LA Times – also aus­gerech­net jene Befra­gung, die als eine der Weni­gen am Ende auf der richti­gen Seite lag. Sie hat­ten einen Wahlsieg Trumps vorherge­sagt. Son­der­lich genau war diese Befra­gung im Übri­gen nicht. Sie lag auf nationaler Ebene klar daneben, denn Hillary Clin­ton erzielte nation­al die höheren Wäh­ler­an­teile als Don­ald Trump. Eines hat­te diese Befra­gung jedoch anderen voraus: Die Dat­en wur­den öffentlich zugänglich gemacht.

Graphiken: Sal­im Brügge­mann

Print Friendly, PDF & Email