Automatische Medieninhaltsanalyse — ein Bericht aus der Werkstatt

Die Schweiz­er Medi­en berichteten während des Wahlkampfs 2015 vor allem über gesellschaft­spoli­tis­che The­men und den Wahlkampf selb­st. Das zeigte die Selects Medi­en­analyse 2015. Im Unter­schied zu tra­di­tionellen Medi­en­in­halt­s­analy­sen hat die Selects Medi­en­analyse 2015 erst­mals auf ein automa­tisiertes Vorge­hen geset­zt, welch­es wir im Fol­gen­den erk­lären. Das ange­wandte Ver­fahren der Selects Medi­en­analyse 2015 kann all­ge­mein für die Bear­beitung gross­er Textmen­gen einge­set­zt wer­den.

Das Hauptziel der Selects Medi­en­analyse 2015 bestand darin, ein möglichst umfassendes Bild des Wahlkampfs in den Schweiz­er Print- und Onlineme­di­en zu erhal­ten. Uns inter­essierten dabei vor allem die Akteure (Parteien und Per­so­n­en) sowie die poli­tis­chen Inhalte in der Berichter­stat­tung. Ins­ge­samt haben wir über 275’000 Doku­mente aus 93 Zeitun­gen, Onlinepor­tal­en und Zeitschriften in die Analyse mit ein­be­zo­gen. Damit diese Textmen­gen präzise ver­ar­beit­et wer­den kön­nen, braucht es automa­tisierte Tex­t­analy­sev­er­fahren. Unser Ver­fahren basiert auf fünf grundle­gen­den Schrit­ten, die wir im Fol­gen­den näher vorstellen.

1. Den Medienkorpus für die Wahlkampfanalyse bestimmen

Die Selects Medi­en­analyse 2015 basiert auf ein­er Zusam­me­nar­beit mit der Schweiz­erischen Medi­en­daten­bank (SMD), welche uns Zugang auf ihr Archiv an Medi­en­doku­menten gewährte. In einem ersten Schritt wur­den die von der SMD archivierten Titel nach fol­gen­den Kri­te­rien gefiltert: nur Schweiz­er Pub­lika­tio­nen, Erschei­n­ungs­fre­quenz min­destens ein­mal wöchentlich, keine Fach- oder Branchen­magazine (z.B. “Die Tier­welt”). Dies ergab ein Total 93 Titel, aus welchen wir 275’705 Artikel analysierten, die sich wie fol­gt auf ver­schiedene Medi­enerzeug­nisse verteilen: 

Abbildung 1:

Graph 1

INFOBOX: Kor­pus
Eine erste Hürde ist, eine solche grosse Anzahl Doku­mente effizient zu beziehen und zu spe­ich­ern. Zu diesem Zweck wurde eine Pipeline von eigens erstell­ten Soft­ware-Skripten in die von der SMD bere­it gestellte Plat­tform [1] einge­bet­tet. Damit wur­den Abfra­gen durchge­führt, Angaben zu den Doku­menten wie Pub­lika­tions­da­tum und Pub­lika­tion­sti­tel extrahieret und die Text­dat­en in Daten­banken abge­spe­ichert. Eine effiziente Spe­icherung eines grossen Kor­pus’ ist die Voraus­set­zung für die nach­fol­gen­den Analy­sen und Qual­ität­stests, welche oft wieder­holt und getestet wer­den müssen, bis alle Berech­nun­gen sitzen.
2. Relevante Dokumente herausfiltern 

Print- und Onlineme­di­en bericht­en über ein bre­ites Spek­trum an The­men. Aus diesem Grund ist es notwendig, den Kor­pus zunächst nach den rel­e­van­ten Doku­menten zu fil­tern, in unserem Fall nach den Beiträ­gen über den Wahlkampf. Weil die Medi­en­ti­tel ver­schiedene Rubriken – oder im Fall von vie­len Online-Quellen gar keine – aufweisen, haben wir hier­für mit ein­er binären Klas­si­fika­tion gear­beit­et. Das heisst, es wurde ein sta­tis­tis­ch­er Algo­rith­mus angewen­det, der auf­grund der Wortvorkom­men zwis­chen rel­e­van­ten und nicht rel­e­van­ten Doku­menten unter­schei­det. Ein Fil­ter für Doku­mente zur Schweiz­er Poli­tik funk­tion­ierte von mehreren geprüften Vari­anten schliesslich am besten.

Diese binäre Klas­si­fika­tion haben wir “überwacht” durchge­führt. Das bedeutet, dass wir zunächst eine kleine Stich­probe von Doku­menten manuell in die gewün­scht­en Kat­e­gorien eingeteilt haben. Für unser Pro­jekt waren drei Exper­tIn­nen damit beauf­tragt, 1’813 deutschsprachige, 978 franzö­sis­chsprachige und 395 ital­ienis­chsprachige Doku­mente in die Kat­e­gorien rel­e­vant/nicht rel­e­vant einzuteilen.

Das ist das Anschau­ungs­ma­te­r­i­al für das maschinelle Ler­nen. Für die Selects Medi­en­analyse 2015 wur­den vier ver­schiedene Algo­rith­men [2] und sechs Ein­stel­lun­gen in Bezug auf die Ver­ar­beitung der Texte (z.B. ob sel­ten vork­om­mende Worte aus­geschlossen wer­den sollen), zwei Ein­stel­lun­gen in Bezug auf die Wortverteilun­gen (z.B. ob Worte nach ihrem Vorkom­men gewichtet wer­den) und zehn Ein­stel­lun­gen in Bezug auf die einzel­nen Algo­rith­men getestet. Alle diese Ein­stel­lun­gen wur­den in allen Kom­bi­na­tio­nen mehrmals auf die Stich­probe ange­wandt, um sys­tem­a­tisch den besten Algo­rith­mus zu find­en. Näheres dazu lässt sich im tech­nis­chen Bericht finden.(LINK)

INFOBOX: Auf­bau des Fil­ters
In ein­er Pilot­phase haben wir drei ver­schiedene Vari­anten eines solchen Fil­ters getestet: Doku­mente, die rel­e­vant sind für Poli­tik im All­ge­meinen, rel­e­vant für Schweiz­er Poli­tik und rel­e­vant für den eid­genös­sis­chen Wahlkampf. Die Kat­e­gorie Poli­tik im All­ge­meinen erwies sich als deut­lich zu bre­it, um rel­e­vante Doku­mente für den Schweiz­er Wahlkampf zu find­en. Ein eige­nen Fil­ter für den Wahlkampf hinge­gen funk­tion­ierte eben­falls nicht gut, weil sich die drei Exper­tIn­nen, welche in der Pilot­phase die Tests gemacht haben, oft uneinig waren, welche Doku­mente als rel­e­vant zu betra­cht­en sind und welche nicht.

Nach ein­er inten­siv­en Test­phase haben wir uns auf fol­gende Def­i­n­i­tion von Schweiz­er Poli­tik geeinigt: “Berichter­stat­tung über Poli­tik meint redak­tionelle Doku­mente, Mei­n­un­gen oder Kom­mentare zu Kriegen und Kon­flik­ten, Angele­gen­heit­en, die mehrere Staat­en betr­e­f­fen, Wahlen und Abstim­mungen, Ver­ab­schiedung von Geset­zen, staat­spoli­tis­che Fra­gen, öffentliche Refor­men in den ver­schiede­nen Poli­tik­bere­ichen sowie weit­ere The­men, welche die Poli­tik direkt betr­e­f­fen. Zusät­zlich sind nur Doku­mente rel­e­vant, in denen ein Schweiz­er Akteur (Per­son oder Organ­i­sa­tion) vorkommt, die Schweiz erwäh­nt wird oder die Schweiz­er Innen­poli­tik The­ma des Doku­mentes ist.” Fol­glich haben wir für die Analyse nur Doku­mente ein­be­zo­gen, die gemäss dieser Def­i­n­i­tion Schweiz­er Poli­tik zum The­ma hat­ten:

3. Umfassende Qualitätskontrolle 

Das A und O eines automa­tisierten Fil­ters sind umfassende Qual­ität­stests. Während der Entwick­lungsphase kann die Qual­ität der automa­tis­chen Klas­si­fika­tion mit der Ein­stu­fung von Exper­tIn­nen ver­glichen wer­den. Wenn die automa­tis­che Klas­si­fika­tion eine im Ver­gle­ich zur Han­dein­teilung ähn­liche Qual­ität erzielt, kann die Entwick­lung des Fil­ters abgeschlossen wer­den. In unserem Fall erre­icht­en die Übere­in­stim­mung unter den Exper­tIn­nen 0.93 in Bezug auf die Präzi­sion und 0.67 in Bezug auf die Auss­chöp­fung des Fil­ters.[3]

Abbildung 2: 

Graph 2

Das wichtig­ste Resul­tat unser­er Analyse war, dass alle Algo­rith­men zufrieden­stel­lend arbeit­en. Dies, weil sie für alle Sprachen die Resul­tate des Ver­gle­ichs der drei ver­schiede­nen Hand­codierun­gen übertr­e­f­fen. Darüber hin­aus ist die Qual­ität für die Erken­nung der irrel­e­van­ten Doku­mente – das wäre zum Beispiel die Berichter­stat­tung zu anderen The­men als Schweiz­er Poli­tik – generell bess­er als für die rel­e­van­ten Doku­mente. Auch dieses Resul­tat ist plau­si­bel, weil der Anteil der irrel­e­van­ten Doku­mente auch höher ist.

Abbildung 3:

Graph 3

Als weit­ere Qual­ität­skon­trolle haben wir aus den Beiträ­gen, die in die Kat­e­gorie Schweiz­er Poli­tik fie­len, pro Sprache je genau hun­dert Doku­mente zufäl­lig aus­gewählt und kon­trol­liert. Die Präzi­sion in diesem Test betrug 0.90 für Deutsch, 0.92 für Franzö­sisch und 0.70 für Ital­ienisch. Das ist deut­lich bess­er als die erste Mes­sung für Deutsch und Franzö­sisch und gle­ich­bleibend für Ital­ienisch. Der ital­ienis­chsprachige Kor­pus war beson­ders schwierig zu fil­tern, weil die Anzahl Doku­menten sowohl in den Train­ings­dat­en als auch im gesamten Kor­pus rel­a­tiv niedrig ist.

4. Die Identifikation von Akteuren

Unsere erste Analyse nach der Fil­terung des Kor­pus war die Erken­nung des Vorkom­mens von Parteien und Poli­tik­erIn­nen in den rel­e­van­ten Doku­menten. Hierzu haben wir zunächst zwei umfassende Lis­ten erstellt. Für die Poli­tik­erIn­nen haben wir die offiziellen Namenslis­ten der Kan­di­datIn­nen für die eid­genös­sis­chen Wahlen 2015 mit den Namen der Bun­der­srätIn­nen, Parteipräsi­dentIn­nen und abtre­tenden Nation­al- und Stän­derätIn­nen ergänzt. Die finale Liste umfasste 3’913 Per­so­n­en.

Für die Parteien­stich­worte sind wir zunächst von den offiziellen Namen aller kan­tonalen Wahllis­ten für die eid­genös­sis­che Wahlen 2015 aus­ge­gan­gen. Von dieser Liste wur­den Reg­uläre Aus­drücke [4] gebildet, indem Dup­likate gelöscht, Namen auf den Kern reduziert (z.B. “Lega” anstatt “Lega dei Tici­ne­si”) und ver­schiedene Endun­gen sowie Gross- und Klein­buch­staben antizip­iert wur­den (so dass z.B. die ‘schweiz­erische’, die ‘Schweiz­erische’ und die ‘Schweiz­erischen Volkspartei’ gefun­den wird) wur­den. Zudem haben wir Syn­onyme für Begriffe hinzuge­fügt (z.B. “Freisinn” für die “FDP.Die Lib­eralen”), welche wir aus früheren Inhalt­s­analy­sen zur Ver­fü­gung hat­ten (vgl. Wueest, Müller und Willi 2016). Die Liste der Parteien umfasste schlussendlich 181 Stich­worte.

Bei­de Lis­ten wur­den inten­siv in mehreren Iter­a­tio­nen getestet. Während der Erstel­lung der Lis­ten haben wir alle Parteien­stich­worte und eine Stich­probe von Kan­di­datIn­nen­na­men auf der nor­malen SMD-Benutze­r­ober­fläche getestet, d.h. die Stich­worte und Namen mit hohen sowie sehr weni­gen Tre­f­fer­quoten sys­tem­a­tisch auf ihre Genauigkeit über­prüft. Um die Leis­tungs­fähigkeit der Analyse zu erhöhen, haben wir durch Par­al­lelisierun­gen bis zu dreis­sig Suchen gle­ichzeit­ig durchge­führt, wom­it sich die Laufzeit auf ca. zwei Stun­den reduziert hat.

5. Thematische Schwerpunkte erkennen

Um die The­men in den rel­e­van­ten Doku­menten zu erken­nen, haben wir uns für ein induk­tives Vorge­hen entsch­ieden. Die The­men, soge­nan­nte top­ics, wur­den direkt aus den Doku­menten berech­net, und zwar mit struk­turellen The­men­mod­ellen (Struc­tur­al Top­ic Mod­els, STM, Roberts et al. 2014). Die STM schätzen die Wahrschein­lichkeit, dass ein Doku­ment zu einem bes­timmten laten­ten The­ma gehört.[5] Die STM ergeben als Resul­tat Lis­ten von Wörtern, welche für die einzel­nen The­men typ­isch sind. Mit diesen Wortlis­ten und mit der Lek­türe von typ­is­chen Doku­menten kon­nten wir schliesslich eine Ein­teilung der in den analysierten Beiträ­gen gefun­de­nen The­men in Wahlkampfthe­men vornehmen.

Die fol­gen­re­ich­ste Entschei­dung bei der Anwen­dung eines The­men­mod­ells ist die Anzahl The­men, welche man vor der Berech­nung angeben muss. Ein Mod­ell mit zu weni­gen The­men pro­duziert zu dif­fuse The­menkat­e­gorien, wohinge­gen ein Mod­ell mit zu vie­len The­men zu sehr spez­i­fis­chen und fast nicht unter­schei­d­baren The­menkat­e­gorien führt. Wir lösen dieses Prob­lem, indem wir die richtige Anzahl The­men auf­grund der Kohärenz der Worte, welche für ein The­ma wichtig sind, berech­nen.[6] Die nach­fol­gende Abbil­dung zeigt, dass die Kohärenz der Worte für Ital­ienisch und Franzö­sisch auf 18 The­men hin­weist, und für Deutsch auf 17.

Abbildung 4:

Graph 4

Konsequenzen der technischen Neuerungen

Die Selects Medi­en­analyse 2015 set­zte im Ver­gle­ich mit früheren Analy­sen auf ein kon­se­quent automa­tisiertes Ver­fahren. Dadurch kon­nten zum einen die Inhalte ganz­er Zeitun­gen und zum anderen Medi­en­ti­tel aus drei Sprachen und aus allen Lan­desteilen in die Analyse ein­be­zo­gen wer­den.

Automa­tisierte Tex­t­analy­sen haben aber nicht nur Vorteile. Die Arbeit­slast ver­schiebt sich im Ver­gle­ich zu manuellen Inhalt­s­analy­sen von der eigentlichen Daten­er­he­bung hin zur Kon­trolle der Daten­er­he­bung. Ger­ade, weil die Berech­nun­gen weitest­ge­hend automa­tisiert sind, braucht es für eine präzise Analyse ein Vielfach­es an Qual­ität­stests.

Abschliessend kön­nen wir fes­thal­ten, dass die in der Selects Medi­en­analyse 2015 einge­set­zten Ver­fahren generell ein­set­zbar sind. Wir hof­fen, dass unsere Pio­nier­studie als Anleitung für ver­gle­ich­bare Analy­sen zur Schweiz­er Poli­tik und Medi­en dient. 

An dieser Stelle möcht­en wir uns noch ein­mal bei der Schweiz­erischen Medi­en­daten­bank SMD für den grosszügig gewährten Zugang zu ihrem Archiv bedanken. 

[1] KNIME-Anbindung (Kon­stanz Infor­ma­tion Min­er, https://www.knime.org/ an das Apache Solr/Lucene inter­face des SMD.

[2] Sup­port Vec­tor Machine, Naïve Bayes, Ran­dom For­est und Ker­nel Ridge Regres­sion

[3] Die Präzi­sion eines Ver­gle­ichs gibt an, wie viele der als rel­e­vant eingestuften Doku­mente tat­säch­lich rel­e­vant sind. Die Auss­chöp­fung gibt an, wie viele aller rel­e­van­ten Doku­mente auch tat­säch­lich als rel­e­vant eingestuft wer­den.

[4] Reg­uläre Aus­drücke sind Zeichen­ket­ten, welche bes­timmte Sprach­muster abbilden und somit zu generellen Such­be­grif­f­en aus­ge­baut wer­den kön­nen. Eine ein­fache Anwen­dung ist der Aster­isk in Google-Suchen, der als Platzhal­ter für irgen­dein unbekan­ntes Wort einge­set­zt wer­den kann.

[5] Die STM basieren auf der Latent Dirich­let Allo­ca­tion, einem gen­er­a­tiv­en Wahrschein­lichkeitsmod­ell, mit dem die Zuge­hörigkeit von Doku­menten und Worten zu den The­men geschätzt wird. Näheres dazu lässt sich im tech­nis­chen Bericht find­en.

[6] Wir ver­wen­den word2vec zu diesem Zweck. Näheres dazu lässt sich im tech­nis­chen Bericht find­en.


Ref­eren­zen:

  • Wüest, Bruno, Sarah Bütikofer, Fionn Gan­ten­bein, Adri­an van der Lek (2016). Selects Media Analy­ses 2015. Code­book and Tech­ni­cal Report. Zürich: IPZ.

  • Wüest, Bruno, Chris­t­ian Müller und Thomas Willi (2016). Explor­ing the use­ful­ness of Twit­ter data for polit­i­cal analy­sis in Switzer­land. Paper pre­sent­ed at the Annu­al Con­fer­ence of the Swiss Polit­i­cal Sci­ence Asso­ci­a­tion at the Uni­ver­si­ty of Basel, Jan­u­ary 21–22, 2016.

Titel­bild: Pix­abay

Grafiken: Pas­cal Burkhard

Print Friendly, PDF & Email