Automatische Medieninhaltsanalyse — ein Bericht aus der Werkstatt

Die Schwei­zer Medi­en berich­te­ten wäh­rend des Wahl­kampfs 2015 vor allem über gesell­schafts­po­li­ti­sche The­men und den Wahl­kampf selbst. Das zeig­te die Selec­ts Medi­en­ana­ly­se 2015. Im Unter­schied zu tra­di­tio­nel­len Medi­en­in­halts­ana­ly­sen hat die Selec­ts Medi­en­ana­ly­se 2015 erst­mals auf ein auto­ma­ti­sier­tes Vor­ge­hen gesetzt, wel­ches wir im Fol­gen­den erklä­ren. Das ange­wand­te Ver­fah­ren der Selec­ts Medi­en­ana­ly­se 2015 kann all­ge­mein für die Bear­bei­tung gros­ser Text­men­gen ein­ge­setzt wer­den.

Das Haupt­ziel der Selec­ts Medi­en­ana­ly­se 2015 bestand dar­in, ein mög­lichst umfas­sen­des Bild des Wahl­kampfs in den Schwei­zer Print- und Online­me­di­en zu erhal­ten. Uns inter­es­sier­ten dabei vor allem die Akteu­re (Par­tei­en und Per­so­nen) sowie die poli­ti­schen Inhal­te in der Bericht­erstat­tung. Ins­ge­samt haben wir über 275’000 Doku­men­te aus 93 Zei­tun­gen, Online­por­ta­len und Zeit­schrif­ten in die Ana­ly­se mit ein­be­zo­gen. Damit die­se Text­men­gen prä­zi­se ver­ar­bei­tet wer­den kön­nen, braucht es auto­ma­ti­sier­te Text­ana­ly­se­ver­fah­ren. Unser Ver­fah­ren basiert auf fünf grund­le­gen­den Schrit­ten, die wir im Fol­gen­den näher vor­stel­len.

1. Den Medienkorpus für die Wahlkampfanalyse bestimmen

Die Selec­ts Medi­en­ana­ly­se 2015 basiert auf einer Zusam­men­ar­beit mit der Schwei­ze­ri­schen Medi­en­da­ten­bank (SMD), wel­che uns Zugang auf ihr Archiv an Medi­en­do­ku­men­ten gewähr­te. In einem ers­ten Schritt wur­den die von der SMD archi­vier­ten Titel nach fol­gen­den Kri­te­ri­en gefil­tert: nur Schwei­zer Publi­ka­tio­nen, Erschei­nungs­fre­quenz min­des­tens ein­mal wöchent­lich, kei­ne Fach- oder Bran­chen­ma­ga­zi­ne (z.B. “Die Tier­welt”). Dies ergab ein Total 93 Titel, aus wel­chen wir 275’705 Arti­kel ana­ly­sier­ten, die sich wie folgt auf ver­schie­de­ne Medi­en­er­zeug­nis­se ver­tei­len: 

Abbildung 1:

Graph 1

INFOBOX: Kor­pus
Eine ers­te Hür­de ist, eine sol­che gros­se Anzahl Doku­men­te effi­zi­ent zu bezie­hen und zu spei­chern. Zu die­sem Zweck wur­de eine Pipe­line von eigens erstell­ten Soft­ware-Skrip­ten in die von der SMD bereit gestell­te Platt­form [1] ein­ge­bet­tet. Damit wur­den Abfra­gen durch­ge­führt, Anga­ben zu den Doku­men­ten wie Publi­ka­ti­ons­da­tum und Publi­ka­ti­ons­ti­tel extra­hie­ret und die Text­da­ten in Daten­ban­ken abge­spei­chert. Eine effi­zi­en­te Spei­che­rung eines gros­sen Kor­pus’ ist die Vor­aus­set­zung für die nach­fol­gen­den Ana­ly­sen und Qua­li­täts­tests, wel­che oft wie­der­holt und getes­tet wer­den müs­sen, bis alle Berech­nun­gen sit­zen.
2. Relevante Dokumente herausfiltern 

Print- und Online­me­di­en berich­ten über ein brei­tes Spek­trum an The­men. Aus die­sem Grund ist es not­wen­dig, den Kor­pus zunächst nach den rele­van­ten Doku­men­ten zu fil­tern, in unse­rem Fall nach den Bei­trä­gen über den Wahl­kampf. Weil die Medi­en­ti­tel ver­schie­de­ne Rubri­ken – oder im Fall von vie­len Online-Quel­len gar kei­ne – auf­wei­sen, haben wir hier­für mit einer binä­ren Klas­si­fi­ka­ti­on gear­bei­tet. Das heisst, es wur­de ein sta­tis­ti­scher Algo­rith­mus ange­wen­det, der auf­grund der Wort­vor­kom­men zwi­schen rele­van­ten und nicht rele­van­ten Doku­men­ten unter­schei­det. Ein Fil­ter für Doku­men­te zur Schwei­zer Poli­tik funk­tio­nier­te von meh­re­ren geprüf­ten Vari­an­ten schliess­lich am bes­ten.

Die­se binä­re Klas­si­fi­ka­ti­on haben wir “über­wacht” durch­ge­führt. Das bedeu­tet, dass wir zunächst eine klei­ne Stich­pro­be von Doku­men­ten manu­ell in die gewünsch­ten Kate­go­ri­en ein­ge­teilt haben. Für unser Pro­jekt waren drei Exper­tIn­nen damit beauf­tragt, 1’813 deutsch­spra­chi­ge, 978 fran­zö­sisch­spra­chi­ge und 395 ita­lie­nisch­spra­chi­ge Doku­men­te in die Kate­go­ri­en rele­vant/nicht rele­vant ein­zu­tei­len.

Das ist das Anschau­ungs­ma­te­ri­al für das maschi­nel­le Ler­nen. Für die Selec­ts Medi­en­ana­ly­se 2015 wur­den vier ver­schie­de­ne Algo­rith­men [2] und sechs Ein­stel­lun­gen in Bezug auf die Ver­ar­bei­tung der Tex­te (z.B. ob sel­ten vor­kom­men­de Wor­te aus­ge­schlos­sen wer­den sol­len), zwei Ein­stel­lun­gen in Bezug auf die Wort­ver­tei­lun­gen (z.B. ob Wor­te nach ihrem Vor­kom­men gewich­tet wer­den) und zehn Ein­stel­lun­gen in Bezug auf die ein­zel­nen Algo­rith­men getes­tet. Alle die­se Ein­stel­lun­gen wur­den in allen Kom­bi­na­tio­nen mehr­mals auf die Stich­pro­be ange­wandt, um sys­te­ma­tisch den bes­ten Algo­rith­mus zu fin­den. Nähe­res dazu lässt sich im tech­ni­schen Bericht finden.(LINK)

INFOBOX: Auf­bau des Fil­ters
In einer Pilot­pha­se haben wir drei ver­schie­de­ne Vari­an­ten eines sol­chen Fil­ters getes­tet: Doku­men­te, die rele­vant sind für Poli­tik im All­ge­mei­nen, rele­vant für Schwei­zer Poli­tik und rele­vant für den eid­ge­nös­si­schen Wahl­kampf. Die Kate­go­rie Poli­tik im All­ge­mei­nen erwies sich als deut­lich zu breit, um rele­van­te Doku­men­te für den Schwei­zer Wahl­kampf zu fin­den. Ein eige­nen Fil­ter für den Wahl­kampf hin­ge­gen funk­tio­nier­te eben­falls nicht gut, weil sich die drei Exper­tIn­nen, wel­che in der Pilot­pha­se die Tests gemacht haben, oft unei­nig waren, wel­che Doku­men­te als rele­vant zu betrach­ten sind und wel­che nicht.

Nach einer inten­si­ven Test­pha­se haben wir uns auf fol­gen­de Defi­ni­ti­on von Schwei­zer Poli­tik geei­nigt: “Bericht­erstat­tung über Poli­tik meint redak­tio­nel­le Doku­men­te, Mei­nun­gen oder Kom­men­ta­re zu Krie­gen und Kon­flik­ten, Ange­le­gen­hei­ten, die meh­re­re Staa­ten betref­fen, Wah­len und Abstim­mun­gen, Ver­ab­schie­dung von Geset­zen, staats­po­li­ti­sche Fra­gen, öffent­li­che Refor­men in den ver­schie­de­nen Poli­tik­be­rei­chen sowie wei­te­re The­men, wel­che die Poli­tik direkt betref­fen. Zusätz­lich sind nur Doku­men­te rele­vant, in denen ein Schwei­zer Akteur (Per­son oder Orga­ni­sa­ti­on) vor­kommt, die Schweiz erwähnt wird oder die Schwei­zer Innen­po­li­tik The­ma des Doku­men­tes ist.” Folg­lich haben wir für die Ana­ly­se nur Doku­men­te ein­be­zo­gen, die gemäss die­ser Defi­ni­ti­on Schwei­zer Poli­tik zum The­ma hat­ten:

3. Umfassende Qualitätskontrolle 

Das A und O eines auto­ma­ti­sier­ten Fil­ters sind umfas­sen­de Qua­li­täts­tests. Wäh­rend der Ent­wick­lungs­pha­se kann die Qua­li­tät der auto­ma­ti­schen Klas­si­fi­ka­ti­on mit der Ein­stu­fung von Exper­tIn­nen ver­gli­chen wer­den. Wenn die auto­ma­ti­sche Klas­si­fi­ka­ti­on eine im Ver­gleich zur Hand­ein­tei­lung ähn­li­che Qua­li­tät erzielt, kann die Ent­wick­lung des Fil­ters abge­schlos­sen wer­den. In unse­rem Fall erreich­ten die Über­ein­stim­mung unter den Exper­tIn­nen 0.93 in Bezug auf die Prä­zi­si­on und 0.67 in Bezug auf die Aus­schöp­fung des Fil­ters.[3]

Abbildung 2: 

Graph 2

Das wich­tigs­te Resul­tat unse­rer Ana­ly­se war, dass alle Algo­rith­men zufrie­den­stel­lend arbei­ten. Dies, weil sie für alle Spra­chen die Resul­ta­te des Ver­gleichs der drei ver­schie­de­nen Hand­co­die­run­gen über­tref­fen. Dar­über hin­aus ist die Qua­li­tät für die Erken­nung der irrele­van­ten Doku­men­te – das wäre zum Bei­spiel die Bericht­erstat­tung zu ande­ren The­men als Schwei­zer Poli­tik – gene­rell bes­ser als für die rele­van­ten Doku­men­te. Auch die­ses Resul­tat ist plau­si­bel, weil der Anteil der irrele­van­ten Doku­men­te auch höher ist.

Abbildung 3:

Graph 3

Als wei­te­re Qua­li­täts­kon­trol­le haben wir aus den Bei­trä­gen, die in die Kate­go­rie Schwei­zer Poli­tik fie­len, pro Spra­che je genau hun­dert Doku­men­te zufäl­lig aus­ge­wählt und kon­trol­liert. Die Prä­zi­si­on in die­sem Test betrug 0.90 für Deutsch, 0.92 für Fran­zö­sisch und 0.70 für Ita­lie­nisch. Das ist deut­lich bes­ser als die ers­te Mes­sung für Deutsch und Fran­zö­sisch und gleich­blei­bend für Ita­lie­nisch. Der ita­lie­nisch­spra­chi­ge Kor­pus war beson­ders schwie­rig zu fil­tern, weil die Anzahl Doku­men­ten sowohl in den Trai­nings­da­ten als auch im gesam­ten Kor­pus rela­tiv nied­rig ist.

4. Die Identifikation von Akteuren

Unse­re ers­te Ana­ly­se nach der Fil­te­rung des Kor­pus war die Erken­nung des Vor­kom­mens von Par­tei­en und Poli­ti­ke­rIn­nen in den rele­van­ten Doku­men­ten. Hier­zu haben wir zunächst zwei umfas­sen­de Lis­ten erstellt. Für die Poli­ti­ke­rIn­nen haben wir die offi­zi­el­len Namens­lis­ten der Kan­di­da­tIn­nen für die eid­ge­nös­si­schen Wah­len 2015 mit den Namen der Bund­ers­rä­tIn­nen, Par­tei­prä­si­den­tIn­nen und abtre­ten­den Natio­nal- und Stän­de­rä­tIn­nen ergänzt. Die fina­le Lis­te umfass­te 3’913 Per­so­nen.

Für die Par­tei­en­stich­wor­te sind wir zunächst von den offi­zi­el­len Namen aller kan­to­na­len Wahl­lis­ten für die eid­ge­nös­si­sche Wah­len 2015 aus­ge­gan­gen. Von die­ser Lis­te wur­den Regu­lä­re Aus­drü­cke [4] gebil­det, indem Dupli­ka­te gelöscht, Namen auf den Kern redu­ziert (z.B. “Lega” anstatt “Lega dei Tici­ne­si”) und ver­schie­de­ne Endun­gen sowie Gross- und Klein­buch­sta­ben anti­zi­piert wur­den (so dass z.B. die ‘schwei­ze­ri­sche’, die ‘Schwei­ze­ri­sche’ und die ‘Schwei­ze­ri­schen Volks­par­tei’ gefun­den wird) wur­den. Zudem haben wir Syn­ony­me für Begrif­fe hin­zu­ge­fügt (z.B. “Frei­sinn” für die “FDP.Die Libe­ra­len”), wel­che wir aus frü­he­ren Inhalts­ana­ly­sen zur Ver­fü­gung hat­ten (vgl. Wueest, Mül­ler und Wil­li 2016). Die Lis­te der Par­tei­en umfass­te schluss­end­lich 181 Stich­wor­te.

Bei­de Lis­ten wur­den inten­siv in meh­re­ren Ite­ra­tio­nen getes­tet. Wäh­rend der Erstel­lung der Lis­ten haben wir alle Par­tei­en­stich­wor­te und eine Stich­pro­be von Kan­di­da­tIn­nen­na­men auf der nor­ma­len SMD-Benut­zer­ober­flä­che getes­tet, d.h. die Stich­wor­te und Namen mit hohen sowie sehr weni­gen Tref­fer­quo­ten sys­te­ma­tisch auf ihre Genau­ig­keit über­prüft. Um die Leis­tungs­fä­hig­keit der Ana­ly­se zu erhö­hen, haben wir durch Par­al­le­li­sie­run­gen bis zu dreis­sig Suchen gleich­zei­tig durch­ge­führt, womit sich die Lauf­zeit auf ca. zwei Stun­den redu­ziert hat.

5. Thematische Schwerpunkte erkennen

Um die The­men in den rele­van­ten Doku­men­ten zu erken­nen, haben wir uns für ein induk­ti­ves Vor­ge­hen ent­schie­den. Die The­men, soge­nann­te topics, wur­den direkt aus den Doku­men­ten berech­net, und zwar mit struk­tu­rel­len The­men­mo­del­len (Struc­tu­ral Topic Models, STM, Roberts et al. 2014). Die STM schät­zen die Wahr­schein­lich­keit, dass ein Doku­ment zu einem bestimm­ten laten­ten The­ma gehört.[5] Die STM erge­ben als Resul­tat Lis­ten von Wör­tern, wel­che für die ein­zel­nen The­men typisch sind. Mit die­sen Wort­lis­ten und mit der Lek­tü­re von typi­schen Doku­men­ten konn­ten wir schliess­lich eine Ein­tei­lung der in den ana­ly­sier­ten Bei­trä­gen gefun­de­nen The­men in Wahl­kampf­the­men vor­neh­men.

Die fol­gen­reichs­te Ent­schei­dung bei der Anwen­dung eines The­men­mo­dells ist die Anzahl The­men, wel­che man vor der Berech­nung ange­ben muss. Ein Modell mit zu weni­gen The­men pro­du­ziert zu dif­fu­se The­men­ka­te­go­ri­en, wohin­ge­gen ein Modell mit zu vie­len The­men zu sehr spe­zi­fi­schen und fast nicht unter­scheid­ba­ren The­men­ka­te­go­ri­en führt. Wir lösen die­ses Pro­blem, indem wir die rich­ti­ge Anzahl The­men auf­grund der Kohä­renz der Wor­te, wel­che für ein The­ma wich­tig sind, berech­nen.[6] Die nach­fol­gen­de Abbil­dung zeigt, dass die Kohä­renz der Wor­te für Ita­lie­nisch und Fran­zö­sisch auf 18 The­men hin­weist, und für Deutsch auf 17.

Abbildung 4:

Graph 4

Konsequenzen der technischen Neuerungen

Die Selec­ts Medi­en­ana­ly­se 2015 setz­te im Ver­gleich mit frü­he­ren Ana­ly­sen auf ein kon­se­quent auto­ma­ti­sier­tes Ver­fah­ren. Dadurch konn­ten zum einen die Inhal­te gan­zer Zei­tun­gen und zum ande­ren Medi­en­ti­tel aus drei Spra­chen und aus allen Lan­des­tei­len in die Ana­ly­se ein­be­zo­gen wer­den.

Auto­ma­ti­sier­te Text­ana­ly­sen haben aber nicht nur Vor­tei­le. Die Arbeits­last ver­schiebt sich im Ver­gleich zu manu­el­len Inhalts­ana­ly­sen von der eigent­li­chen Daten­er­he­bung hin zur Kon­trol­le der Daten­er­he­bung. Gera­de, weil die Berech­nun­gen wei­test­ge­hend auto­ma­ti­siert sind, braucht es für eine prä­zi­se Ana­ly­se ein Viel­fa­ches an Qua­li­täts­tests.

Abschlies­send kön­nen wir fest­hal­ten, dass die in der Selec­ts Medi­en­ana­ly­se 2015 ein­ge­setz­ten Ver­fah­ren gene­rell ein­setz­bar sind. Wir hof­fen, dass unse­re Pio­nier­stu­die als Anlei­tung für ver­gleich­ba­re Ana­ly­sen zur Schwei­zer Poli­tik und Medi­en dient. 

An die­ser Stel­le möch­ten wir uns noch ein­mal bei der Schwei­ze­ri­schen Medi­en­da­ten­bank SMD für den gross­zü­gig gewähr­ten Zugang zu ihrem Archiv bedan­ken. 

[1] KNI­ME-Anbin­dung (Kon­stanz Infor­ma­ti­on Miner, https://www.knime.org/ an das Apa­che Solr/Lucene inter­face des SMD.

[2] Sup­port Vec­tor Machi­ne, Naï­ve Bayes, Ran­dom Forest und Ker­nel Ridge Regres­si­on

[3] Die Prä­zi­si­on eines Ver­gleichs gibt an, wie vie­le der als rele­vant ein­ge­stuf­ten Doku­men­te tat­säch­lich rele­vant sind. Die Aus­schöp­fung gibt an, wie vie­le aller rele­van­ten Doku­men­te auch tat­säch­lich als rele­vant ein­ge­stuft wer­den.

[4] Regu­lä­re Aus­drü­cke sind Zei­chen­ket­ten, wel­che bestimm­te Sprach­mus­ter abbil­den und somit zu gene­rel­len Such­be­grif­fen aus­ge­baut wer­den kön­nen. Eine ein­fa­che Anwen­dung ist der Aste­risk in Goog­le-Suchen, der als Platz­hal­ter für irgend­ein unbe­kann­tes Wort ein­ge­setzt wer­den kann.

[5] Die STM basie­ren auf der Latent Diri­ch­let Allo­ca­ti­on, einem gene­ra­ti­ven Wahr­schein­lich­keits­mo­dell, mit dem die Zuge­hö­rig­keit von Doku­men­ten und Wor­ten zu den The­men geschätzt wird. Nähe­res dazu lässt sich im tech­ni­schen Bericht fin­den.

[6] Wir ver­wen­den word2vec zu die­sem Zweck. Nähe­res dazu lässt sich im tech­ni­schen Bericht fin­den.


Refe­ren­zen:

  • Wüest, Bru­no, Sarah Büti­ko­fer, Fionn Gan­ten­bein, Adri­an van der Lek (2016). Selec­ts Media Ana­ly­ses 2015. Code­book and Tech­ni­cal Report. Zürich: IPZ.

  • Wüest, Bru­no, Chris­ti­an Mül­ler und Tho­mas Wil­li (2016). Explo­ring the use­ful­ness of Twit­ter data for poli­ti­cal ana­ly­sis in Switz­er­land. Paper pre­sen­ted at the Annu­al Con­fe­rence of the Swiss Poli­ti­cal Sci­ence Asso­cia­ti­on at the Uni­ver­si­ty of Basel, Janu­a­ry 21–22, 2016.

Titel­bild: Pixabay

Gra­fi­ken: Pas­cal Burk­hard

Print Friendly, PDF & Email