des Unterbergers Blog und seine Reichweite

December 4th, 2019 by Felix Schneider

Wie viel passiert auf andreas-unterberger.at? Ein Versuch einer quantitativen Analyse.

Andreas Unterberger war lange Jahre Presse-Chefredakteur und später auch bei der Wiener Zeitung. Bereits dort hat er sein "Tagebuch" begonnen. Als es Zeit für seinen Abschied aus der etablierten Medienlandschaft wurde, startete er einen Blog: "Andreas Unterbergers nicht ganz unpolitisches Tagebuch", heißt es im ersten Blogpost am 9. Oktober 2009. Kritisch und pointiert will man sein.

Das war vor über 10 Jahren. In der Zwischenzeit habe auch ich angefangen, gelegentlich den Blog zu durchstöbern. Es ist interessant, gelegentlich durchaus rechtes und mitunter sehr konservatives Gedankengut auf sprachlich hohem Niveau zu lesen und die vorgebrachten Argumente zu kennen. Im Rahmen meines Interesses für Partizipation frage ich mich, wie viele Menschen hier wohl miteinander interagieren, oder wie intensiv sich die Menschen dem Thema widmen.

Zum diesjährigen Jubiläum des Blogs ist eine kleine Analyse vielleicht durchaus wertvoll. Folgende Forschungsfragen habe ich mir also gestellt:

  1. Wie viele verschiedene Nutzerinnen kommentieren auf seiner Seite (d.h. unter seinen Artikeln)?
  2. Wie lange sind die Kommentare der Nutzerinnen in etwa? Gibt es eine Relation zwischen Artikellänge und Kommentaranzahl?
  3. Welche Seiten werden in den Kommentaren am öftesten verlinkt?

Wie es sich ergibt, sind sowohl meine zeitlichen Ressourcen, als auch meine Erfahrungen in den Geisteswissenschaften beschränkt. Daher möchte ich mich hüten, voreilig Rückschlüsse zu ziehen, sondern lediglich einige Fakten präsentieren.

das Portal

Die Webseite www.andreas-unterberger.at ist in mehrere Teilbereiche gegliedert. Neben dem persönlichen Blog von Herrn Unterberger gibt es da noch Gastkommentare, sowie etliche Links zu "befreundeten Seiten".

Einkommen wird über Werbung, aber auch über Mitgliedschaften generiert, die es um 100 Euro pro Jahr gibt. Nur Mitglieder können die neuesten paar Artikel lesen, alle anderen erst nach einigen Tagen.

Zum Kommentieren ist kein Benutzerkonto notwendig, lediglich Name und Email-Adresse. Bei solchen Kommentaren wird dann neben dem Namen "(kein Partner)" aufgeführt. Kommentare können von Nutzern auch mit "Sternchen" versehen werden, um deren Beliebtheit auszudrücken.

Für die Analyse beschränke ich mich auf Artikel von Andreas Unterberger selbst, sowie sämtliche Kommentare unter diesen, vom Anfang bis zum Stichtag 9. November 2019, also dem Artikel Was man vom Bäcker alles lernen könnte.

Daten, Daten, Daten

Es geht also um die Daten, und eine ausreichend hohe Qualität müssen sie auch noch aufweisen. Zum Glück gibt es dafür diverse Open-Source-Programme, die mir den Dienst einfacher machen, wie beispielsweise Scrapy[1]. Damit gelingt es mir, sämtliche Artikel von Herrn Unterberger, deren Kommentare und die Verbindungen zwischen Artikeln und Kommentaren, sowie etwaige öffentlich verfügbare Metadaten in eine maschinenlesbare Form zur weiteren Verarbeitung zu bekommen.

Zur raschen Visualisierung leite ich die Daten zudem in eine ElasticSearch-Instanz ein, auf die dann leicht mittels dem Visualisierungstool Kibana[2] zugegriffen werden kann. Zur detaillierteren Verarbeitung greife ich auf Pandas[3] und Matplotlib[4] zurück.

Und schon purzeln die ersten Zahlen heraus: Insgesamt habe ich fast 525.000 Kommentare zu gut 5.500 Artikeln gesammelt. Das entspricht durchschnittlich etwa 95 Kommentaren pro Artikel.

Verteilung der Anzahl an Kommentaren pro Artikel Man sieht die poissonförmige Verteilung der Artikel nach Anzahl an Kommentaren

Tag Cloud der Kommentatoren Hier haben wir eine hübsche Tag Cloud mit den 24 fleißigsten Kommentatorinnen

Wir sehen hier sehr prominent die Nutzerin "Udine", die knapp doppelt so viele Kommentare verfasst hat (insgesamt etwa 27.000) wie "Brigitte Imb", die an zweiter Stelle liegt (mit "nur" ca. 13.500 Postings). Am meisten Kommentare als Nicht-Partner hat die Nutzerin mit dem Kürzel "cmh" geschrieben, ca. 6.850 an der Zahl.

Um meine weiteren gestellten Forschungsfragen zu beantworten, muss ich die Daten allerdings weiter bereinigen. Wie andere Seiten auch wurde das "Tagebuch" nämlich von Spam heimgesucht. Besonders schlimm war das zwischen 19. und 22. Januar 2015, wo gleich mehrere tausend englischsprachige, offensichtlich nicht dazugehörige Kommentare abgesetzt wurden. Verteilt über den ganzen Januar und Februar desselben Jahres wurden weitere 2000 Kommentare mehr als in den Monaten davor und danach abgesetzt. Nicht nur sind sie oftmals unpassend, sondern auch auf Englisch (auf einer sonst ausschließlich deutschsprachigen Seite) und oft mit Rechtschreibfehlern übersät. Die Texte könnten anderen Plattformen automatisiert entnommen worden sein, aber über die Beweggründe hinter diesem Angriff kann ich nur spekulieren. Um diese Ausreißer zu beseitigen, filtere ich in besagten Monaten Kommentare von nicht angemeldeten Nutzerinnen aus.

Nutzerzahlen und Größe der Community

Nun kommen wir zu der ersten Fragestellung.

Wie viele verschiedene Nutzerinnen kommentieren auf seiner Seite (d.h. unter seinen Artikeln)?

Insgesamt finde ich 13.106 verschiedene Nutzer, die jemals auf der Seite kommentiert haben. 1017 davon waren jemals angemeldet, also "Partner", und sind insgesamt für gut 64% aller Kommentare verantwortlich.

Zeitlicher Verlauf kommentierender Nutzerinnen Hier dargestellt ist die Anzahl kommentierender Nutzerinnen pro Monat. Während im Median ca. 355 Nutzerinnen pro Monat kommentieren liegt, sind im Median rund 160 davon angemeldet.

Wir sehen hier einen leichten Abfall an Nutzerinnen insgesamt, während hingegen die Anzahl an kommentierenden Partnerinnen relativ konstant bleibt, wenn nicht sogar schwach wächst[5]. Wir sehen auch, das erst im Juli 2010 das Anmelden als Partnerin möglich wurde. Davor tauchen keine Kommentare von Partnern auf.

Rund 160 von über 1000 Partnerinnen kommentieren im Monat, also nicht einmal ein Fünftel. Tatsächlich sind 25% der Partnerinnen, das sind 254 Personen, für gut 95% aller von zahlenden Leserinnen abgesetzten Kommentare verantwortlich.

Es handelt sich hier also keineswegs um eine Diskussion, in die ein signifikanter Anteil der Bevölkerung eingebunden ist. Stattdessen diskutiert ein harter Kern aus einigen Hundert Menschen um des Unterbergers Thesen, wie es scheint, zumeist ohne Opposition. Aber eine inhaltliche Analyse der Texte möchte ich jetzt nicht anstreben, also genug der Vermutungen.

Länge der Artikel und Kommentare

Anfangs haben wir uns folgende Fragen gestellt:

Wie lange sind die Kommentare der Nutzerinnen in etwa? Gibt es eine Relation zwischen Artikellänge und Kommentaranzahl?

Tja. Die Ergebnisse hier sind eher langweilig. Die Kommentare der Nutzerinnen sind im Median etwa 40 Wörter (bzw. rund 280 Zeichen) lang, wobei Partnerinnen etwa gleich lange Kommentare verfassen. 75% der Kommentare sind kürzer als 90 Wörter, nur sehr weniger länger als das. Bei den Artikeln zeigt sich ein ähnlich rascher Abfall. Der Median liegt bei rund 580 Wörtern Länge, 75% sind kürzer als 1000 Wörter. Eine Korrelation zwischen Länge eines Artikels und Anzahl zugehöriger Kommentare gibt es nicht, wie die folgende Grafik veranschaulicht.

Kommentare über Artikellänge in Wörtern Die Anzahl an Kommentaren über die Länge des jeweiligen Artikels in Wörtern aufgetragen. Man sieht, es gibt hier keine Korrelation.

Links in den Texten

Beim Feld für Kommentare von nicht angemeldeten Nutzerinnen wird man gewarnt, dass man keine Links in den Text einfügen soll. Dennoch stelle ich diese Frage.

Welche Seiten werden in den Kommentaren am öftesten verlinkt?

Unangemeldete Nutzerinnen werden vor einer Filterfunktion für Links gewarnt, sodass nur angemeldete Nutzerinnen Links posten können sollten. Doch die Kommentatorinnen (und ebenso die Spammer) bedienen sich an kreativen Methoden, um ihre Links trotz der Filterfunktion zu veröffentlichen:

Das macht es natürlich auch für mich schwierig, Domains zu filtern. Ich habe mich daher auf ganz normale http:// und https://-Links konzentriert.

Anzahl Links über die Zeit, alle Die Regelung zu Links in den Kommentaren wurde recht bald nach Öffnung des Blogs eingesetzt.

Anzahl Links über die Zeit, nur Partnerinnen Partnerinnen posten konstant wenige Links, von dem kurzen Hoch am Anfang abgesehen.

Die am öftesten verlinkte Domain in den Kommentaren der Partnerinnen ist https://www.unzensuriert.at, zu ihr gibt es 23 Links (das sind etwa 12% aller Links von Partnerinnen). In Anbetracht der mehreren Hunderttausend Kommentare ist das ein verschwindend geringer Teil. Interessant ist höchstens, dass alle diese Links von demselben Autor stammen, namentlich Udine. Aber hey, das kommt uns doch bekannt vor! Udine ist jene Nutzerin, die mit Abstand am meisten kommentiert.

Nach unzensuriert.at folgen YouTube, Google, die Seite der FPÖ und dann noch Ö1 und die TVthek. Dennoch sind erstaunlich wenige Links angegeben, denen ich also auch nur geringe Aussagekraft zuspreche.

Die Links in Unterbergers Artikeln sind übrigens vernachlässigbar: Es gibt insgesamt nur 5 Artikeln, in denen überhaupt etwas verlinkt ist.

Anmerkungen & Quellen

In diesem Artikel werden geschlechtsspezifische Wörter im Feminin verwendet, bezeichnen aber Personen jeglichen Geschlechts.

Auf Anfrage unter felix [punkt] schneider [at] aon [punkt] at stelle ich gerne den verwendeten Datensatz und Quelltext zur Verfügung.

Ursprünglich hatte ich auch eine kleine Sicherheitsanalyse angedacht. Diese habe ich allerdings rasch wieder fallen lassen. Weder möchte ich mich in illegales Terrain begeben, noch möchte ich jemandem schaden. Soviel sei jedoch gesagt: Ich bezweifle, dass die Seite ausreichend gegen einen Angreifer gesichert ist, der sich halbwegs mit den frei verfügbaren Tools zu SQL-Injection oder XSS auskennt.

[1] Scrapy-Framework
[2] Kibana Visualisierungen
[3] Pandas - Python Data Analysis Framework
[4] matplotlib - Python Plotting Framework
[5] Ich habe mir erlaubt, hier keine Gerade einzufitten, da diese meiner Meinung nach wie ein harter Fakt aussehen würde und damit die subjektive Natur dieser Daten untergraben würde.