Sonstiges

Datenschutz: Die übertriebene Angst vor der De-Anonymisierung

Eine neue Studie zeigt, dass man auch aus anonymisierten Daten relativ leicht herausfiltern kann, um wen es sich handelt. Auch wenn die Ergebnisse Fragen aufwerfen, wie Daten besser geschützt werden können, ist der große Lauschangriff erst einmal nicht zu befürchten.

Individuelle Bewegungsmuster lassen Rückschlüsse zu

Forscher vom MIT und der Harvard University haben gemeinsam mit einem belgischen und chilenischen Kollegen die Bewegungsprofile von 1,5 Millionen Kunden eines europäischen Mobilfunkanbieter analysiert. Dieser hatte die anonymisierten Daten, die über 15 Monate erhoben wurden, den Forschern zur Verfügung gestellt. In der Datenbank wird gespeichert, wann und wo sich das Smartphone eines Kunden mit einer Funkzelle verbunden hat. Im Schnitt entstehen somit 114 Datenpunkte pro User und Monat, aus denen hervorgeht, wann er wo gewesen ist.

Da die einzelnen Bewegungsmuster äußerst unterschiedlich sind, lässt sich allein mit vier zufälligen Datenpunkten mit 95-prozentiger Genauigkeit herausfinden, um welche Person es sich handelt. Auch mit öffentlich zugänglichen Daten wie Twitter-Posts kann man die Datenbank de-anonymisieren. So weit, so schockierend.

Datenbankabgleiche sind nicht neu

Auch wenn die Studie die Notwendigkeit des Datenschutz aufzeigt, muss man vorsichtig sein, nicht zu viel – aber auch nicht zu wenig – in die Ergebnisse zu interpretieren. Denn dass man beim Abgleich zweier Datensets einzelne Datensätze eindeutig zuordnen kann, ist nicht neu.

Schon aus den Daten des US-Zensus 1990 ließen sich 87 Prozent der Amerikaner allein anhand ihres Geschlechts, Geburtstags und der Postleitzahl identifizieren. Der CTO der CIA, Ira Hunt, hingegen gab vor wenigen Tagen sogar an, dass man sogar anhand von Schrittzählern und anderen Fitness-Messgeräten Personen eindeutig identifizieren könne.

Alle Beispiele, und auch die jüngste Studie zeigen, dass man zunächst die entsprechende Datenbank benötigt, um daraus Informationen zu gewinnen. Das hört sich zwar trivial an, heißt aber im Umkehrschluss, dass die Herausforderung weniger darin besteht, Daten zu anonymisieren (da eh kaum möglich), sondern dafür Sorge zu tragen, dass die Datensätze nicht in falsche Hände geraten.

Mindestens zwei relevante Datensätze nötig

Im Falle der Bewegungsmuster heißt das: Solange der Mobilfunkanbieter die Daten, welches Gerät sich wann mit welcher Funkzelle verbunden hat, nicht herausgibt, lässt sich damit auch nichts anstellen. Allerdings ist auch klar, dass heutzutage auch die Apples und Googles und zahlreiche Apps die Bewegungsmuster des Users aufzeichen. Dennoch ist eine zweite relevante Datenbank nötig, um die Daten zu dechiffrieren.

Hier bleiben die Forscher sehr vage, denn grundsätzlich haben sie nur gezeigt, dass aus vier Datenpunkten ein ganzer Datensatz innerhalb der gleichen Datenbank eindeutig erkannt wird. Die Erkenntnis an sich ist eigentlich wenig Besorgnis erregend.

Und auch wenn die Forscher angeben, dass man auch über Twitter-Posts solche Datenpunkte ermitteln kann, bleibt unklar, woher die Twitter-Daten kommen. Natürlich sind sie öffentlich – aber einen zufällig ausgewählten Twitter-User mit Daten von 1,5 Millionen Mobilfunkkunden abzugleichen ist ziemlich aufwändig und eher nutzlos.

Aufwand für reale De-Anonymisierung sehr hoch

Denn selbst wenn ich daran interessiert wäre, habe ich danach immer noch nicht viel gewonnen, denn ich kann nur nachvollziehen, wann und wo sich Twitter-User A aufgehalten hat. Solange es sich um anonymisierte Datensätze handelt habe ich nach wie vor keine private Adresse, keine IP- oder MAC-Adresse, keine Telefonnummer, kein Geburtsdatum – nichts, dass eine reale Person identifizieren würde.

Nicht zuletzt: Es ist unklar, wie lange die Forscher an der Studie gearbeitet haben – die Daten sind aus 2006/2007. Der Aufwand, einzelne Personen zu identifizieren ist jedenfalls sehr hoch und setzt ein hohes technisches Verständnis voraus.

Auch wenn klar ist, dass die CIA, die Forscher vom MIT oder ein technisch versierter Stalker herausfinden können, was man so den ganzen lieben Tag lang treibt – es ist unwahrscheinlich, dass Datenbankeinträge im großen Stil de-anonymisiert werden. Der Aufwand ist schlichtweg zu hoch und der Nutzen zu gering.

Selbst Google dürfte egal sein, wer tatsächlich Hans Müller ist und wo er sich an Heiligabend aufgehalten hat. Für Werbungtreibende ist lediglich wichtig, Werbung gezielt zu adressieren und Streuverluste zu verringern. Ob der User jetzt in der Hauptstraße 1 oder Talstraße 2 wohnt ist zumindest für Online-Werbung unerheblich.

Es bleibt also festzuhalten, dass es mit den richtigen Daten durchaus leicht ist, einzelne Datensätze zu identifizieren und miteinander zu verknüpfen. Der Fokus der Datenschützer muss also darauf liegen, dass Daten nicht in falsche Hände geraten und so wenig wie möglich mit nicht-anonymisierten Datensätzen abgeglichen werden. Eine Zuordnung realer Personen ist aber auch nach wie vor nicht so ohne Weiteres möglich und bleibt mit sehr hohem Aufwand verbunden.

Bild: Hacker using laptop / Shutterstock.com

Über den Autor

Robert Vossen

Robert Vossen hat erst Los Angeles den Rücken gekehrt und dann leider auch BASIC thinking. Von 2012 bis 2013 hat er über 300 Artikel hier veröffentlicht.

8 Kommentare

  • Wieso lautet die Überschrift denn dann „…die übertriebene Angst…“? Wenn die De-Anonymisierung möglich ist und die Zugriffe auf Personendaten bei Meldeämtern und Providern gesetzlich vereinfacht werden sollen? Sollte der „proof-of-concept“ nicht zeigen, das die Angst berechtigt ist? …oder eher, dass es schon mit ner elektrischen Glühlampe in der Tasche hoffnungslos ist seine Daten noch „beisammen“ zu halten?
    Viele Grüße
    Lars

    • Naja, Deanonymisierung war ja schon vorher möglich, wie die Beispiele zeigen. Man sollte also durchaus skeptisch bleiben, aber ich glaube man muss jetzt auch nicht den Teufel an die Wand malen.

  • „Ob der User jetzt in der Hauptstraße 1 oder Talstraße 2 wohnt ist zumindest für Online-Werbung unerheblich.“

    Setzen 6.

    Es ist sehr erheblich für die Werbung, wo der User wohnt. Hauptstrasse 1 ist das Obdachlosenheim, Talstrasse 2 das Nobelviertel. Im ersten Fall hat der User kein Geld, hat schon die Hand geboben – User 2 aber schwimmt im Geld und birgt kein Zahlungsausfallrisiko.

    „aber ich glaube man muss jetzt auch nicht den Teufel an die Wand malen.“

    Glauben oder wissen?? Wenn Du nichts weißt, warum schreibst Du im Glauben an das Gute dann den Artikel hier?

    Sorry, aber das musste sein.

    • „Wenn Du nichts weißt…“ – saubere Argumentationskette. Im Ernst…darf ich nicht eine andere Meinung als du haben?

  • „Selbst Google dürfte egal sein, wer tatsächlich Hans Müller ist und wo er sich an Heiligabend aufgehalten hat. Für Werbungtreibende ist lediglich wichtig, Werbung gezielt zu adressieren und Streuverluste zu verringern. Ob der User jetzt in der Hauptstraße 1 oder Talstraße 2 wohnt ist zumindest für Online-Werbung unerheblich.“

    Da möchte ich auch dagegen halten:

    NICHTS ist für eine Datenkrake unerheblich.
    ALLES kann für den Werbetreibenden interessant sein.
    AUCH deine Kleidung, Körperhaltung, Wohnungseinrichtung und die bevorzugten Gesprächsthemen in der Wohnung (hörte ich da gerade „neues iPad“ ?!?)- also, lassen wir mal die Webcam im TV unverdeckt, ok?

    Mag paranoid klingen, ist es aber leider nicht.
    Psychisch verhaltensauffällig ist der, der nicht nervös wird.
    Meistens Tech-Freakz.
    Die sehen auch bei Maschinenpistolen nur die glänzende Technik, nicht das Blut.

  • @Robert
    Nach dem Absenden habe ich gesehen, dass ich das Wort „es“ nicht eingefügt hatte – leider kann man den Beitrag nicht editieren.

    Statt “ Wenn Du nichts weißt“ sollte es heißen „Wenn Du ES nicht weißt“

    Entschuldigung dafür – es ging mir nur um die von mir aufgeführten Kritikpunkte, nicht um Dein Wissen allgemein.

    Bei meiner Kritik bleibe ich.

    • Kein Problem.

      Zu deinem Argument: Du hast zwar Recht, dass Geo-Daten wichtig sind. Gemeint war aber eher, dass es unerheblich ist, ob der User in der Hauptstraße 1 oder Hauptstraße 2 wohnt. In den USA bspw. lassen sich Google AdWords nach Postleitzahl buchen. Doch die Daten kommen von der IP-Adresse und knapp 30 % der US-Postcodes kann Google nicht targeten.

      http://www.acquisio.com/ppc/google-adwords-dirty-little-secret-u-s-zip-code-targeting-sucks/

      In Deutschland kenne ich die Situation ehrlich gesagt nicht – es würde mich aber sehr wundern, wenn man adressgenau werden kann. Und selbst dann: Es interessiert ja nicht, dass Hans Müller in der Hauptstraße 1 wohnt, sondern dass ein User (männlich, 25 Jahre, etc.) in der Hauptstraße 1 wohnt. Die Daten sind also anonymisiert.