In Tagen wie diesen, wo Naturkatastrophen, atomare Drohgebärden und angebliche Alternative Politik am rechten Rand der Gesellschaft die Nachrichten bestimmen, bin ich im Konflikt mit mir selbst, wenn ich über mein berufliches Tun spreche oder schreibe. Wir retten keine Menschen, wir haben kein politisches Mandat. Dennoch arbeiten wir in einer der größten globalen Entertainment-Branchen: dem Sportspiel. Dort produzieren wir aber nichts Originäres, stehen nicht auf dem Feld, trainieren keine Spieler, sind keine Schiedsrichter.
Nein, wir veredeln Sportdaten. Wir leben in einer Nische. Was ich damit ausdrücken möchte: Ich kann Ihnen versichern, dass ich mir über die Relevanz unseres Know-hows für den Fortbestand unserer Gesellschaft im Klaren bin. Dennoch eignet sich unser Feld vielleicht in besonderer Art und Weise, weil wir experimentieren können, weil eben nicht Leib und Leben oder die Volkswirtschaft davon abhängt, wie wir mit Daten umgehen.
Zudem haben wir es mit komplexen dynamischen, interaktiven Systemen zu tun, die auch noch zusätzlich von Zufällen geprägt sind. Dies ist eine Mischung, die für andere gesellschaftliche Bereiche interessant sein könnte. Über die jüngste, geradezu sprunghaft, gestiegene Aufmerksamkeit für den Bereich der Datenanalysen im Fußball freue ich mich persönlich inständig. Es ist die Anerkennung für einen Prozess, der im deutschsprachigen Raum im Jahr 2006 durch die Ära Klinsmann initiiert wurde und seit 2010 nachhaltig von verschiedenen Institutionen, allen voran der Deutschen Fußball Liga (DFL) vorangetrieben wird.
Neue Stellenangebote
Mitarbeiter*in (m/w/d) für Social Media, Öffentlichkeitsarbeit und Städtepartnerschaft (m/w/d) meinestadt.de in Sachsenheim |
||
Journalist (m/w/d) als Leiter PR und Social-Media NOMOS Glashütte/SA Roland Schwertner KG in Berlin |
||
Content Creator / Social Media / Marketing (m/w/d) Delitzscher Schokoladenfabrik GmbH in Delitzsch |
Bevor wir aber sowohl im sportlichen Bereich (Spielanalyse, Trainingsanalysen, Gesundheitsdaten, Scouting, etc.) und nicht-sportlichen Segment (Connected Stadium, Fan Experience, eCommerce, etc.) aufgrund des Vortriebs der technologischen Möglichkeiten sowie der eingangs beschriebenen neuen Öffentlichkeit beginnen abzuheben, würde ich gerne zu einem Diskurs aufrufen. Denn für mich sind wesentliche Fragestellungen bei der zunehmenden Geschwindigkeit unserer Szene offen geblieben.
Diese lassen sich für mich in drei Themen unterteilen:
- Qualität der Datenfassung
- Semantisierung von Big Data Pools
- Data-driven Storytelling
Schuster bleib bei deinen Leisten! Deshalb werde ich im Folgenden die drei Themen, mit denen wir uns bei read-the-game.com auseinandersetzen, als Beispiele heranziehen. Ich bitte den geneigten Leser, dies für seine eigene Expertise zu übertragen.
1. Qualität der Datenerfassung
Wir haben es bei der Live-Spieldatenerfassung und beim Tracking von Positionen immer noch mit menschlichen oder halbautomatischen Prozessen zu tun. Bei den Spieldaten beispielsweise erfassen Menschen in Stadien oder an Bildschirmen innerhalb kürzester Frist Daten wie Pässe, Torschüsse, Zweikämpfe.
Dabei passieren natürlicher Weise Fehler. Die Accuracy-Rate beträgt live ca. 85%. Das bedeutet, dass der Rest false negative Fehler – also Spielerereignisse, die stattgefunden haben, aber nicht erfasst wurden und false positive Fehler – also Spielereignisse, die stattgefunden haben, aber in verschiedenen Merkmalen (Art, Zeit, Spieler) falsch erfasst wurden. Zudem nutzen verschiedene Erheber verschiedene Definitionskataloge.
Je nach Datenlieferant und Definition finden Sie beispielsweise bei bild.de, transfermarkt.de und bundesliga.com/de verschiedene Spielerwerte für Assists. Denn der Torschuss wird von einigen Datenerhebern als Assist gewertet, von anderen nicht. Ergo: Nehmen Sie im TV und im digitalen sowie Print-Blätterwald nicht alles für bare Münze, was sie lesen in Sachen Spieldaten.
Bei den Trackingsystemen können grob drei Systeme (GPS, Radar, Bilderkennung) unterschieden werden. Alle haben eine unterschiedliche Genauigkeit und verschiedene Vor- bzw. Nachteile. Ohne auf Details einzugehen, ist es aber so, dass in der Bundesliga bei den Klubs in Training und Wettkampf unterschiedliche Systeme genutzt werden. So kam es in den letzten Jahren dazu, dass beispielsweise das Athletiktraining auf verschiedenen Datensätzen beruhte und somit keineswegs eine optimale, gegebenenfalls sogar falsche Steuerung vorgenommen wurde.
Ich plädiere an dieser Stelle daher einerseits für eine selbstkritische Einstellung der Datenerheber und einen Fokus für verschiedene Qualitätsprozesse. Anderseits mahne ich an, im medialen, im fanorientierten, aber auch im sportlichen Bereich, die Daten nicht unkritisch als Grundlage für Aussagen und Entscheidungen heran zu ziehen, ohne das Bewusstsein für verschiedene Fehlerklassen im Hintergrund zu entwickeln.
2. Semantisierung von Big Data Pools
Die Herausforderung bei der Bearbeitung der Big Data Pools ist, dass an eigentlich noch dumme Datensätze komplexe Fragen gestellt werden. Dann werden mächtige Tools wie neuronale Netze genutzt – diese haben aber ein Problem. Die Gewichtungen zwischen den Knotenpunkten (Synapsen) müssen bestimmt werden.
Wenn man zu wenige Testdaten hat, kann man recht schnell hohe Trefferraten erzielen, weil man die Gewichte nicht gut bestimmt. Das System ist unterbestimmt, und man ist sehr anfällig für „noise“ in den Daten. Wir nennen das „overfitting“. Man kann unglaublich komplexe Zusammenhänge ausdrücken, aber es erfordert viele, viele Daten, um diese Zusammenhänge mittels der richtigen Gewichtungen verlässlich zu erkennen. Sonst bekommen wir zwar hübsche Ergebnisse aus dem Black Box System, aber die schlechte Nachricht ist, dass diese wahrscheinlich falsch sind.
Dabei helfen kann die Semantisierung von Daten. Dafür benötigen wir sportartspezifische Modelle: damit meine ich nichts anderes als Teilung, Gliederung und Klassifikation von Daten. So können wir frei nach Bourdieu: „Die Struktur der Relationen zwischen den Aussagen“ bestimmen. Die Semantisierung von Spieldaten wird sichtbar, wenn wir es auf eine Analogie übertragen.
Stellen Sie sich vor, Sie würden in einem Roman alle Buchstaben zählen und dann versuchen aus der Übersicht eine Interpretation abzuleiten. Zugespitzt ist das genau das momentane Vorgehen der Spieldaten-Erfassung im Fußball. Wir gehen einen Schritt weiter und sagen, lasst uns doch die kleinste semantische Einheit finden, die uns dabei hilft, das Spiel zu rekonstruieren. Das ist die Ballkontrolle.
Es gibt drei Zustände im Spiel: Team A hat Ballkontrolle, Team B und keines der Teams hat Ballkontrolle (es herrscht Chaos). Wir fassen also zwei Pässe, einen Zweikampf, einen Torschuss und ein Tor zu einer Ballkontrollphase, wir nennen sie Episode, zusammen. Aus mehreren Episoden ergeben sich Phasen des Spiels.
Sie kennen das sicher von Kommentaren: Das Spiel ist jetzt in einer hektischen Phase. Wir können das jetzt mit Daten des Spielrhythmus be- oder widerlegen.
So lassen sich darauf aufbauend ganze Spiele und Saisons erklären, alles aufbauend auf einer Episode, ähnlich wie es in einer literaturwissenschaftlichen Romaninterpretation durchaus möglich ist, sich an einem Wort des Autors zu orientieren.
3. Datadriven Storytelling
Die Geschichte der Menschheit ist zu guten Teilen von Geschichten geprägt: Lagerfeuer-Atomsphäre. Geschichten sind gerne erzählt, werden nachdrücklich erinnert und werden „unter die Leute gebracht“. Was wir alle miteinander zeigen müssen, um unseren Themenbereich dauerhaft zu etablieren, ist, dass wir den Weg von der Datenerfassung über die Veredlung hin zur Geschichte systematisch beschreiten können. Dabei rufe ich dazu auf, die sogenannten qualitativen Daten, die von Experten erhoben werden können, hinzuzunehmen. Denn diese sind oftmals die Aufhänger von guten Geschichten.
Den Wert von Robert Lewandowski in den letzten Jahren für den FC Bayern München erfasst man beispielsweise neben seiner Fähigkeit als Vollstrecker vor allem über die Anzahl seiner indirekten Beteiligungen an Episoden vor einem Tor oder einem Torschuss. Das heißt, wenn er die Situation maßgeblich ballfern durch eine Bewegung im Raum oder einen Block verändert. In jedem Jahr war er hier Spitze. Diese Daten werden aber kaum erfasst oder von fast niemanden erzählt.
Hier liegt das wahre Potential unserer Szene: Nicht nur den krampfhaften Versuch der Vollautomatisierung zu unternehmen, sondern die neu zur Verfügung stehende Zeit durch automatisierte Prozesse zu nutzen, um bessere Geschichten zu erzählen.
Lassen Sie uns den Diskurs am besten bei der „Big Data im Fußball“-Konferenz am 23. März in Graz von Angesicht zu Angesicht eröffnen. Ich freue mich auf alle Impulse aus verschiedenen Perspektiven. Tickets für die Konferenz gibt es unter www.fussball-business.com/tickets.