Auf den ersten Blick fällt es nicht leicht, die Gemeinsamkeit von Martin Schulz und Mikrowellen-Pommes zu erkennen. In Zeiten von Big Data offenbart sich aber der Zusammenhang. Unser Chef-Statistiker Jörg Munkes klärt auf: Die Begriffe „Martin Schulz“ und „Mikrowellen-Pommes“ wurden auf Google in den letzten fünf Jahren nach einem fast identischen Muster gesucht. Suchmuster-Vergleiche können seit Kurzem auf der Webseite Google Correlate eingesehen werden. Insbesondere 2017 zeigt sich für beide Begriffe ein deutlicher Peak. Die Stärke des Zusammenhangs zwischen beiden Begriffen – die so genannte Korrelation (abgekürzt r) – beträgt r=0,96. Bei einer Korrelation von r=1,0 spricht man von einem perfekten Zusammenhang zwischen zwei Variablen, während bei einer Korrelation von r=0,0 kein Zusammenhang besteht.
Was sagt dieser Zusammenhang aber nun über den SPD Kanzlerkandidaten aus? Leider nicht viel, denn Korrelation bedeutet nicht Kausalität und auch in diesem Fall dürfte es schwer fallen, eine Ursache-Wirkungsbeziehung zwischen Mikrowellen-Pommes und Martin Schulz zu entdecken. Es handelt sich also (wahrscheinlich) nur um einen zufälligen Zusammenhang: eine sogenannte Scheinkorrelation, wie man sie häufig bei Big Data Analysen finden kann und denen sich beispielsweise auch die Webseite Spurious Correlations widmet.
Dass die Korrelation von Google Suchbegriffen allerdings auch zu interessanten Erkenntnissen führen kann, zeigt sich bei Angela Merkel. Neben Begriffen wie „Kanzlerin“ (r=0,80) korrelieren auch Suchbegriffe wie „Angela Merkel privat“ (r=0,77) oder „Angela Merkel früher“ (r=0,76) mit dem Suchbegriff „Angela Merkel“. Hier spiegeln die Suchanfragen das Interesse an der Person Angela Merkel wider. Es scheint demnach eine Sehnsucht zu geben, den Menschen hinter der „Teflon-Kanzlerin“ zu entdecken.
Woher weiß man nun, ob man eine „echte“ oder eine Scheinkorrelation vor sich hat? Das ist gar nicht so einfach, insbesondere wenn die Berechnung der Korrelation – wie in diesem Fall – hypothesenfrei geschieht und lediglich ein Algorithmus am Werk ist. Tatsächlich kann man den endgültigen Beweis gar nicht liefern, dass es sich um eine „echte“ Korrelation handelt. Man kann aber dennoch Indizien dafür finden, in dem man andere Datenquellen nutzt, wie zum Beispiel Umfragedaten. Diese Ergebnisse können dann den gefundenen Zusammenhang stützen oder widerlegen.