Abo

Kurzbeitrag : Die Anonymisierung im Kontext von Krisenresilienzplattformen : aus der RDV 4/2023 Seite 241 bis 246

Lesezeit 20 Min.

I. Einleitung

Eine komplexe und dynamische Umwelt im weiteren Sinne bietet immer weniger Reaktionszeit und nur eingeschränkt Raum für eine Lösung zur Bewältigung einer Krise. Wie sich durch den Konflikt in der Ukraine oder andere Krisen in der Vergangenheit zeigt, werden von Unternehmen in solchen Situationen immer wieder angemessene und wirksame Reaktionen auf relevante Umweltveränderungen erwartet.

Genau dieses Problem der komplexen wirtschaftlichen Herausforderungen in Krisensituationen wird durch sog. Krisenresilienzplattformen angegangen. Ein Projekt, welches dieses Thema mittels einer KI basierten Plattform zur Integration, Strukturierung, Vernetzung, Analyse und Bewertung von Daten (aus wirtschaftlichen Wertschöpfungsnetzen sowie dem Branchenumfeld und gesellschaftlichem Kontext) adressiert, ist das vom Bundesministerium für Wirtschaft und Klimaschutz geförderte Projekt CoyPu (Cognitive Economy Intelligence Plattform für die Resilienz wirtschaftlicher Ökosysteme).[1] Um eine möglichst genaue Analyse durchzuführen, werden mithilfe solcher Plattformen, ganz- und/oder teilautomatisiert, große Mengen an personen- und nichtpersonenbezogenen Informationen aus unterschiedlichen Datenquellen verarbeitet.

Die Verarbeitung personenbezogener Daten untersteht hierbei den Vorschriften der Datenschutz-Grundverordnung (EU) 2016/679 (DS-GVO).[2] Ziel und Zweck der DS-GVO ist gemäß Art.  1 Abs.  1 DS-GVO der Schutz natürlicher Personen bei der Verarbeitung ihrer Daten und der freie Verkehr solcher Daten. Eine Methode, welche i.d.R. zur Erreichung dieses Schutzzweckes genutzt wird, ist die Anonymisierung personenbezogener Daten. Diese stellt bislang für Unternehmen eine attraktive Methode zur Datenverarbeitung dar. Allerdings besteht nach wie vor Uneinigkeit darüber, was unter einer „korrekten“ Anonymisierung zu verstehen ist. Diese Uneinigkeit stellt nicht nur für datenverarbeitende Unternehmen, sondern auch für beaufsichtigende Datenschutzbehörden eine große Herausforderung im Bereich der Datenverarbeitung dar. Vor diesem Hintergrund werden im Folgenden der Begriff der Anonymisierung und mit Blick auf die Anforderungen der DS-GVO die Begriffe der Nicht- und Re-Identifizierung thematisiert. Zwar wäre es naheliegend anzunehmen, dass das Konzept der Re-Identifizierung bei einer Anonymisierung, mangels Identifizierbarkeit einzelner Personen, ausgeschlossen wäre. Mit Blick auf die immer schneller wachsende und komplexer werdende Informationstechnologie wird jedoch deutlich, dass aufgrund des derzeitigen technischen Standes die Wahrscheinlichkeit einer Re-Identifizierung bei anonymen Daten nicht ganz ausgeschlossen werden könnte. Im Rahmen der Anforderungen an anonymisierte Daten wird deshalb weiter kontextualisiert auf die grundlegende Architektur der Krisenresilienzplattformen Bezug genommen. Des Weiteren wird eine Studie zum Erfolg von Re-Identifizierungen in unvollständigen Datensätzen unter Verwendung eines generativen Modells beleuchtet.

II. Begriff der Anonymisierung

1. Was ist unter einer Anonymisierung zu verstehen?

Der Begriff der Anonymisierung ist anders als der Begriff der Pseudonymisierung in Art.  4 Nr. 5 DS-GVO nicht legaldefiniert. Auch im Bundesdatenschutzgesetz (BDSG), welches die DS-GVO auf nationaler Ebene ergänzt und präzisiert, findet sich eine solche Definition nicht, wobei an dieser Stelle klarzustellen ist, dass die DS-GVO mangels entsprechender Öffnungsklausel konkretisierende Definitionen wie z.B. des Begriffs der Anonymisierung nicht ausdrücklich gestattet. Ausdrücklich wird die Anonymisierung lediglich in den Erwägungsgründen[3] der DS-GVO in Abgrenzung zur Pseudonymisierung genannt. Demnach sollen die Vorschriften der DS-GVO nicht für anonyme Informationen, d.h. Informationen, die sich nicht auf eine identifizierte oder identifizierbare natürliche Person beziehen oder personenbezogene Daten, die in einer Weise anonymisiert worden sind, dass die betroffene Person nicht oder nicht mehr identifiziert werden kann, gelten. Dies gelte auch, wenn anonyme Daten für statistische oder für Forschungszwecke verarbeitet werden.[4] Dass bereits anonyme Daten nicht vom Geltungsbereich der DS-GVO erfasst sind, überrascht nicht. Vielmehr verdeutlicht das bereits den im Art. 1 Abs. 1 DS-GVO verankerten Rechtsgedanken. Die Vorschriften der DS-GVO finden lediglich Anwendung auf die Verarbeitungen von Informationen identifizierter oder identifizierbarer Personen.[5] Das Merkmal der Nichtidentifizierbarkeit einzelner natürlicher Personen ist, anders als bei pseudonymisierten Daten, gerade charakteristisch für bereits anonymisierte Daten.

Historisch gesehen befand sich, anders als in der DS-GVO und der aktuellen Fassung des BDSG, im § 3 Abs. 6 BDSG a.F. eine allgemeine Definition der Anonymisierung als Form einer Verarbeitung. Demnach sei unter der Anonymisierung das Verändern personenbezogener Daten derart zu verstehen, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden könnten. Der Aspekt der De-Identifizierung von personenbezogenen Informationen – ein Prozess bei dem Informationen, die zur Identifizierung einer Person verwendet werden könnten, entfernt werden[6] – spielt mithin eine sehr wichtige Rolle bei der Einordnung eines Datenverarbeitungsvorgangs als Anonymisierungsprozess.

2. Nichtidentifizierbarkeit der Daten

Im Kontrast zum Aspekt der De-Identifizierung von personenbezogenen Daten spielt im Kontext anonymisierter Daten auch der Aspekt der Nichtidentifizierbarkeit eine entscheidende Rolle. Noch recht unklar ist, ob die DS-GVO zumindest abstrakt Anforderungen an die Nichtidentifizierbarkeit anonymisierter Daten stellt, und mithin inhärent bereits eine absolute Anonymisierung ausschließen würde. Eine Antwort betreffend diese Frage könnte sich zunächst aus den Erwägungsgründen der DS-GVO ergeben.

Gemäß den Erwägungsgründen der DS-GVO sollten zur Feststellung einer Identifizierbarkeit einer Person alle Mittel berücksichtigt werden, die von dem Verantwortlichen oder einer anderen Person nach allgemeinem Ermessen wahrscheinlich genutzt werden, um eine einzelne Person direkt oder indirekt zu identifizieren.[7] Die Identifizierbarkeit einer von der Verarbeitung betroffenen Person hinge demnach zum einen davon ab, mit welchen Mitteln oder Informationen eine betroffene Person identifiziert werden könnte. Zum anderen hinge sie davon ab, wie wahrscheinlich es wäre, dass diese Mittel oder Informationen tatsächlich zur Identifizierung genutzt werden würden. Darüber hinaus sollten, entsprechend den Erwägungsgründen der DS-GVO, alle objektiven Faktoren, wie die Kosten der Identifizierung und der dafür erforderliche Zeitaufwand, zur Berücksichtigung der Identifizierbarkeit herangezogen werden.[8] Ebenfalls maßgebend hierfür seien die zum Zeitpunkt der Verarbeitung verfügbaren Technologien und technischen Innovationen.[9]

Auf den ersten Blick scheinen sich die dort beschriebenen Anforderungen im Kontext der vorherigen Sätze des Erwägungsgrundes 26 vielmehr auf die Pseudonymisierung zu beziehen. Anonymisierte Daten werden erstmals im S. 5 des Erwägungsgrundes, wenn auch nur im Kontext der Rechtsfolgen, beschrieben.

Dies hätte zur Folge, dass eine direkte Anwendung dieser Anforderungen auf die Anonymisierung zunächst erst einmal nicht in Betracht käme. Entsprechende Anforderungen betreffend die Anonymisierung und wann eine solche nach der DS-GVO als solche anzunehmen wäre, würden ergo in den Erwägungsgründen nicht ausdrücklich erwähnt. Es stellt sich mithin die Frage, ob die in den Erwägungsgründen der DS-GVO befindlichen Anforderungen an die Identifizierbarkeit bei der Pseudonymisierung ebenfalls Anwendung auf die Anonymisierung finden. Von großer Tragweite ist hierbei auch die Frage der Wahrscheinlichkeit einer Re-Identifizierung einzelner Personen anhand anonymer Datensätze. Ein Blick auf die Datenverarbeitung mittels KI-basierter Krisenresilienzplattformen, bei denen es unter anderem auch zu Überschneidungen von Daten aus verschiedenen öffentlichen und privaten Datenquellen kommt, könnte hier etwas Klarheit bringen. Dies erfordere zunächst einen genaueren Blick auf die Architektur derartiger Plattformen insb. auf die Art und Weise, wie die Daten in die Plattform eingebracht, miteinander verknüpft und/oder gespeichert werden.

a) Krisenresilienzplattformen

Mithilfe von Krisenresilienzplattformen sollen krisenresiliente Strukturen für Krisenbetroffene wie z.B. KMUs aufgebaut werden. Zur Entwicklung dieser Plattformen tragen im wesentlichen Technologien Künstlicher Intelligenz (KI) wie das Machine Learning und Deep Learning bei.

Machine Learning – zu Deutsch maschinelles Lernen – ist eine Art KI, die es Softwareanwendungen ermöglicht automatisch aus Erfahrungen (Daten) zu lernen und sich zu verbessern, ohne explizit dafür programmiert zu sein.[10] Diese Art von KI kann dann automatisiert Wissen generieren, Algorithmen trainieren, Zusammenhänge identifizieren und unbekannte Muster erkennen.[11] Diese identifizierten Zusammenhänge und Muster lassen sich dann auf einen neuen, noch unbekannten Datensatz anwenden, um so Vorhersagen zu treffen und eigene Prozesse zu optimieren.[12] Schwerpunkt des Machine Learnings liegt auf dem selbstständigen Lernen des Algorithmus aus Daten und der alleinigen Erstellung des Programmcodes.[13]

In Bezug auf das eben Gesagte, stellt das Deep Learning eine besondere Form von Machine Learning dar. Hierbei werden neuronale Netze verwendet, um den Computer so zu trainieren, dass dieser aus den Daten lernt.[14] Bei beiden KI-Technologien werden im Kontext der Krisenresilienz i.d.R. Daten aus öffentlichen oder nicht öffentlichen Datenquellen insb. der Domäne Krisenevents, Naturkatastrophen, Informationen zum Unternehmenseigentum und Firmendaten verwendet. Dies ermöglicht es valide, wirtschaftlich verwertbare Einsichten zu generieren oder konkrete krisenbezogene Maßnahmen für Unternehmen abzuleiten.[15] Maßgebend für die Frage der hohen Wahrscheinlichkeit einer Re-Identifizierung anonymisierter Daten ist jedoch nicht bloß die Technologie der KI, die verwendet wurde. Vielmehr ist die Art und Weise, wie diese Daten in diesen Technologien eingebracht, gespeichert und miteinander verknüpft werden, von größerer Wichtigkeit.

aa) Knowledge Graphen

Basis für die mithilfe der KI durchgeführten krisenbezogenen Analysen, wie sie etwa auf der CoyPu-Plattform durchgeführt werden sollen, bilden die sog. Knowledge Graphs – zu Deutsch Wissensgraphen. Unter einem Wissensgraphen ist eine Wissens-Datenbank zu verstehen, in der Informationen so strukturiert aufgearbeitet sind, dass aus ihnen Wissen entsteht.[16] Hierbei werden die sog. Entitäten über Kanten ins Verhältnis zueinander gestellt, mit Attributen versehen und in einen thematischen Kontext bzw. eine Ontologie gebracht.[17] Als Entitäten werden in der Informatik einzelne, identifizierbare und separate Objekte bezeichnet.[18] Diese können insb. Systeme, Systemkomponenten aber auch Informationen zu Einzelpersonen oder Organisationen abbilden.[19] Eine derartige Verknüpfung einzelner Entitäten ermöglicht es dann Antworten auf Abfragen zu erteilen, in denen ein Thema oder eine Entität gesucht wird, die in der eigentlichen Abfrage nicht ausdrücklich genannt ist.[20]

Als Grundlage für den Wissensgraphen dienen im Wesentlichen zwei Ebenen: die Ebene des Entitäten-Kataloges und die Ebene des sog. Knowledge repository – zu Deutsch Wissens-Depot. Im Entitäten-Katalog werden alle Entitäten gespeichert, die mit der Zeit identifiziert worden sind.[21] Im Knowledge repository hingegen geht es um die Zusammenführung und Speicherung von Beschreibungen und die Bildung semantischer Klassen bzw. Gruppen in Form von Entitätsgruppen.[22] Hierbei werden die Entitäten in einem Depot mit den Informationen bzw. Attributen aus den verschiedenen Quellen zusammengeführt.[23] Folglich käme es innerhalb dieser Ebenen auch zur Verknüpfung einzelner Informationen, welche aus verschiedenen Datenquellen stammen.

Für die Frage der Identifizierbarkeit einzelner Personen anhand von anonymen Daten bedeutet dies, dass eine ReIdentifizierbarkeit, bei ausreichend komplexer Vernetzung einzelner Entitäten, zumindest nicht vollständig ausgeschlossen werden kann und durchaus (gering) wahrscheinlich ist. Auch mit Blick auf das Ergebnis einer durchgeführten Studie zum Erfolg von Re-Identifizierungen in unvollständigen Datensätzen unter Verwendung generativer Modelle[24] könnte diese Ansicht bekräftigt werden.

bb) Bedenken an der Anonymisierung

Die Anonymisierung stellt bei groß angelegten Verarbeitungen detaillierter Daten im Rahmen der Medizin, Sozialwissenschaft und KI ein wichtiges Instrument zur Übertragung von Informationen bzw. Daten dar. Hierbei erfolgt die Übertragung der Informationen allgemeiner Auffassung nach i.d.R. mit hinreichendem Schutz der Rechte betroffener Personen.[25] In vergangenen Jahren kam es jedoch vermehrt zu Vorfällen, in denen vermeintlich nicht identifizierbare Personen über anonymisierte Daten wieder identifizierbar gemacht wurden. So kam es bspw. dazu, dass Journalisten Politiker zzgl. ihrer Gesundheitsinformationen und sexuellen Präferenzen aus 3 Millionen anonymisierten Datensätzen über deutsche Bürger identifizieren konnten.[26] Dies löste Bedenken hinsichtlich der Einhaltung datenschutzrechtlicher Rahmenbedingungen und den damit einhergehenden Gefahren wie z.B. potenzielle Massenüberwachungen oder Identitätsdiebstahl aus.[27] Diese Bedenken boten der Wissenschaft Anlass dazu sich in einer Studie näher mit der Wahrscheinlichkeit der Re-Identifizierbarkeit einzelner Personen bei stark unvollständigen Datensätzen zu befassen.

Bei der Studie wurde ein generatives grafisches Modell verwendet, welches mit unvollständigen Informationen aus soziodemografischen Umfrage- und Gesundheitsdatensätzen trainiert wurde.[28] Mithilfe dieses Models wurden dann ein von einer Organisation freigegebener Datensatz und eine Probe von Individuen, welche nach dem Zufallsprinzip aus einer Population von Individuen (z.B. der US-Bevölkerung) extrahiert wurden, betrachtet.[29] Das Modell bezifferte dann infolgedessen, basierend auf diesen Komponenten, die Wahrscheinlichkeit der Re-Identifizierbarkeit jedes Individuums.[30]

cc) Ergebnis der herangezogenen Studie

Die Ergebnisse der Studie zeigten, dass eine Re-Identifizierung eines Individuums anhand des vorgeschlagenen statistischen Modells, unter Berücksichtigung weniger Basisattribute, wie z.B. Geschlecht, Postleitzahl oder Geburtsdatum, bei einer Wahrscheinlichkeit von ca. 95 % möglich wäre. Daraus ließe sich weiter ableiten, dass eine absolute Anonymität von personenbezogenen Daten nie garantiert werden könne und die Re-Identifizierbarkeit einzelner Personen trotz durchgeführter Anonymisierung der personenbezogenen Datensätze weiterhin ein praktisches Risiko darstellt.

Der Ansicht der Forschenden an der Studie nach ließe sich zwar die Behauptung aufstellen, dass eine geringe Einzigartigkeit der betrachteten Population von Individuen und die bereits fortgeschrittenen De-Identifizierungsverfahren ausreichen, um einen Schutz der Privatsphäre einzelner Personen zu gewährleisten.[31] Dies schließe allerdings nicht die abstrakte Gefahr, dass einzelne Personen dennoch über dieses oder vergleichbare Modelle erfolgreich identifiziert werden könnten, aus. Auch die Möglichkeit einer zufälligen Re-Identifizierung bliebe davon unberührt. Mit Blick auf die Zukunft eröffne dies im Weiteren auch die Frage, ob die derzeitigen De-Identifizierungspraktiken den Standards einschlägiger Datenschutzgesetze entsprechen bzw. genügen. Voraussetzung hierfür wäre allerdings, dass die von den Datenschutzgesetzen gestellten Anforderungen an eine Anonymisierung unmissverständlich bzw. klar gestellt sind.

b) Missverständnis betreffend die Anforderungen der Datenschutzgesetze

Auch der Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI) adressierte die Thematik der potenziellen Re-Identifizierung von einzelnen Personen in einem Positionspapier zur Thematik Anonymisierung unter der DS-GVO in Berücksichtigung der TK-Branche[32]. Demnach sei eine absolute Anonymisierung derart, dass die Wiederherstellung des Personenbezugs für niemanden mehr möglich ist, häufig nicht durchführbar.[33] Es wird jedoch auch klargetellt, dass eine absolute De-Identifizierung bzw. Anonymisierung im Regelfall auch datenschutzrechtlich nicht gefordert ist.[34] Vielmehr soll eine sog. faktische Anonymisierung ausreichen. Diese läge vor, wenn der Personenbezug derart aufgehoben wird, dass eine Re-Identifizierung praktisch gesehen nicht durchführbar ist, weil der Personenbezug nur mit unverhältnismäßigem Aufwand an Zeit, Kosten und Arbeitskraft wiederhergestellt werden kann.[35] Dies entspräche auch der im § 3 Abs. 6 BDSG a.F. befindlichen Definition der Anonymisierung. Weiter zeigt auch die Praxis, dass eine Ermittlung der potenziellen Re-Identifizierung von personenbezogenen Informationen besonders bei Grenzfällen in der Realität meist sehr schwer oder sogar unmöglich erscheint.[36] Ob eine Re-Identifizierung auf Grund von Zeit, Arbeitsaufwand oder Kosten praktisch nicht durchführbar ist, ließe sich demnach anhand des aktuellen Standes der Technik[37] ermitteln. Hierbei wären auch vorhandene und vernünftigerweise einsetzbare rechtliche Mittel wie z.B. Akteneinsichtsrechte zu berücksichtigen.[38]

Problematisch erscheint hierbei allerdings, dass sich der technische Stand mit technischem Fortschritt der Informationssysteme ständig neu definiert. Weniger problematisch hingegen erscheint, wie sich dieser Umstand auf die Anforderungen der DS-GVO an die Anonymisierung auswirken könnte. Wie bereits unter Ziffer 2.2 dargestellt, beziehen sich die Anforderungen aus den Erwägungsgründen an die Nichtidentifizierbarkeit lediglich auf den Prozess der Pseudonymisierung und nicht auf die Anonymisierung. Eine feste Definition der Voraussetzungen für die Annahme einer Anonymisierung wäre folglich unter dem Aspekt der technischen Entwicklung mancher Ansicht nach nicht sinnvoll gewesen.3[39] Dadurch besteht für die Verantwortlichen i.S.d. Art. 24 DS-GVO oder die zuständigen Aufsichtsbehörden die Möglichkeit Anonymisierungsmaßnahmen im Einzelfall flexibel und unter Berücksichtigung des derzeitigen technischen Standes zu beurteilen.[40]

Weiter werden mit hoher Wahrscheinlichkeit zukünftig innovativere Datenverarbeitungstechniken entwickelt werden, welche die derzeitigen Anonymisierungs- techniken in ihrer Wirkung beeinträchtigen könnten.[41] Die Open Data Initiative zeigt, dass zukünftig, mit dem Ziel die Innovation im gesamten deutschen Raum zu fördern, mit großer Wahrscheinlichkeit immer mehr Datensätze für die Öffentlichkeit freigegeben werden. Diese freie Zugänglichkeit von Daten könnte einen Quervergleich zwischen Datensätzen ermöglichen, sodass einzelne Datensätze trotz aller Anonymisierungstechniken miteinander verknüpft und letztlich Einzelpersonen identifiziert werden könnten.[42] Mithin wird zum einen deutlich, dass auch zukünftig der Bedarf an vertrauensvollen Anonymisierungsprozessen bestehen wird und zum anderen, derartige Anonymisierungs-prozesse nicht innovationshemmend wirken sollen.

c) Verhaltensregeln i.S.v. Art. 40 DS‑GVO

Besonders für Verantwortliche nach Art.  24 DS-GVO und Auftragsverarbeiter besteht deshalb weiterhin betreffend die eindeutige datenschutzrechtliche Einordnung etwaiger Anonymisierungsprozesse und der an diese zu stellenden Anforderungen große Unklarheit. Über diesen Bedarf an regulatorischer Klarheit betreffend die datenschutzkonforme Anonymisierung, könnten Verhaltensregeln (oder auch sog. Codes of Conduct) i.S.d. Art. 40 der DS-GVO hinweghelfen.

Gemäß Art. 40 Abs. 1 DS-GVO und den Erwägungsgründen der DS-GVO[43] sollen Verbände oder andere Vereinigungen mithilfe des Art. 40 DS-GVO gerade dazu ermutigt werden, innerhalb der Grenzen der DS-GVO Verhaltensregeln auszuarbeiten, um eine wirksame Anwendung der datenschutzrechtlichen Anforderungen zu erleichtern. Zwar wird die Anonymisierung im Art. 40 DS-GVO nicht ausdrücklich erwähnt, jedoch bestünde mit Blick auf die Erwägungsgründe der DS-GVO ein berechtigtes Interesse daran die Anwendung der DS-GVO auf die Anonymisierung (in Abgrenzung zur Pseudonymisierung) durch Verhaltensregeln zu präzisieren. Hierbei ist auch zu beachten, dass die DS-GVO lediglich eine nicht abschließende Liste besonders drängender Themen vorsieht, die letztliche Auswahl der von einer Verhaltensregel abgebildeten Themen aber in der Entscheidungshoheit und Verantwortung der sog. Code-Owner liegt.[44]

Das solche Verhaltensregeln für regulatorische Klarheit sorgen können zeigt z.B. der von SCOPE Europe[45] betreute EU Cloud Code of Conduct[46]. Dieser wurde entwickelt, um die Anforderungen der DS-GVO betreffend Cloud-Dienste abzudecken und wurde nach einer positiven Stellungnahme[47] des Europäischen Datenausschusses im Mai 2021 von der belgischen Datenschutzbehörde genehmigt[48]. Auch der thematisch die Anonymisierung im Kontext der „Verpixelung“ zumindest teilweise tangierende Geodatenkodex konnte die aufsichtsbehördliche Praxis und Diskussion bereits zu Zeiten der Richtlinie beruhigen.[49] Ein Verhaltenskodex für die Anonymisierung, welcher künftig entsprechend Art. 40 Abs. 5 DS-GVO von der zuständigen Datenschutzbehörde genehmigt bzw. anerkannt werden würde, würde gewiss mehr Sicherheit für die Datenverarbeiter und zuständigen Aufsichtsbehörden bei der Beurteilung etwaiger Anonymisierungsprozesse mit sich bringen. Konkrete Anforderungen der Verhaltensregeln könnten so insb. Risikoanalysen betreffend die Anonymisierung verbessern. Etwa könnten diese beispielshalber Kriterien der Risikoanalyse wie z.B. der Grad des Interesses eines Angreifers an einer Re-Identifizierung des anonymen Datensatzes umfassen.[50] Hierbei wären jedoch nicht alle Anonymisierungen gleich zu beurteilen. Konkret am Kriterium des Grades des Interesses an einer Re-Identifizierung wird deutlich, und das gilt es klarzustellen, dass nicht bei jedem anonymisierten Datensatz ein solches Interesse des Angreifers vorliegt und somit auch nicht bei jeder Anonymisierung ein Risiko der Re-Identifizierung besteht.

III. Fazit

Zusammenfassend lässt sich feststellen, dass der Aspekt einer Re-Identifizierung einzelner Personen bei anonymen Datensätzen aufgrund der bestehenden Wahrscheinlichkeit auch zukünftig eine sehr wichtige Rolle spielen wird. Deutlich wird auch, dass besonders automatisierte Datenverarbeitungssysteme wie die Krisenresilienzplattformen, welche krisenresiliente Lösungsoptionen anbieten möchten und somit auf große Mengen an (auch anonymen) Datensätzen angewiesen sind, von einer Klärung dieser Problematik profitieren würden. Zwar stellt insb. die Anonymisierung ein geeignetes De-Identifizierungsinstrument dar, um den Personenbezug der Daten bestmöglich aufzuheben und so einen hinreichenden Schutz der Rechte betroffener Personen zu gewährleisten. Allerdings bliebe mit Blick auf die Weiterentwicklung des derzeitigen technischen Standes stets ein Restrisiko der Re-Identifizierung, welche die Verantwortlichen und Datenverarbeiter fortwährend berücksichtigen sollten. Nach jetzigem Stand der Wissenschaft und behördlichen Stellungnahmen, ist eine rechtskonforme Anonymisierung möglich. Dieser grundsätzliche Umstand sollte auch im Sinne des Datenschutzes (privacy-by-design) aufrechterhalten werden, ungeachtet der künftigen technischen Entwicklungen. Im Übrigen würde jeder Anreiz für Unternehmen verloren gehen, in datensparsamere, anonymisierte Verarbeitungsprozesse zu investieren.

Über die dennoch im Einzelfall verbleibende Unklarheit betreffend die DS-GVO konformen Anforderungen an eine Anonymisierung könnten anerkannte Verhaltensregeln nach Art.  40 DS-GVO hinweghelfen. Diese könnten grundsätzliche Anforderungen an Anonymisierungsprozess und abwägungsrelevante Aspekte definieren; soweit erforderlich könnten Verhaltensregeln auch für bestimmte Verarbeitungskontexte konkrete Maßgaben treffen, die eine sachgerechte und Innovationspotenzial aufrechterhaltene Interessenabwägung sowie den Schutz der Betroffenen im Sinne der DS-GVO gewährleisten. Entsprechend sollte bei Erstellung der Verhaltensregeln stets der Aspekt des Restrisikos einer Re-Identifizierung berücksichtigt werden, so dass es Verantwortlichen, Datenverarbeitern und zuständigen Datenschutzaufsichtsbehörden ermöglicht wird, Anonymisierungsmaßnahmen auch zukünftig rechtssicher einzuordnen.

 

* Der Autor ist Wissenschaftlicher Mitarbeiter des Selbstregulierung Informationswirtschaft e.V.

[1]Https://coypu.org.

[2] Art. 2 Abs. 1 DS-GVO: Diese Verordnung gilt für die ganz oder teilweise automatisierte Verarbeitung personenbezogener Daten sowie für die nichtautomatisierte Verarbeitung personenbezogener Daten, die in einem Dateisystem gespeichert sind oder gespeichert werden sollen.

[3] ErwG. 26 S. 5 (EU) 2016/679.

[4] ErwG. 26 S. 6 (EU) 2016/679.

[5] Siehe dazu Art. 2 Abs. 1 i.V.m. Art. 4 Nr. 1 DS-GVO

[6] So auch Kathriner/Ruch/Schmidlin in: DE-Identifikation, unter: https://www.awk.ch/resources/E-Paper_DE-Identifikation_DE.pdf (2021).

[7] ErwG. 26 S. 3 (EU) 2016/679.

[8] ErwG. 26 S. 4 (EU) 2016/679.

[9] S. Fn. 8

[10] Wuttke, Laurenz: Machine Learning: Definition, Algorithmen, Methoden und Beispiele, https://datasolut.com/was-ist-machine-learning/ (Stand: 13.03.2023, 15:39 Uhr).

[11] S. Fn. 10.

[12] S. Fn. 10.

[13] S. Fn. 10.

[14] Kopp, Olaf: Machine-Learning einfach erklärt: Definition, Unterschied zu Artificial Intelligence, Funktionsweise …, https://www.sem-deutschland.de/online-marketing-glossar/was-ist-maschinen-learning-definition-funktionsweise-bedeutung/, 01.08.2022 (Stand: 13.03.2023, 15:44 Uhr).

[15] Wie bei CoyPu https://datasets.coypu.org/.

[16] Kopp, Olaf: Google Knowledge Graph einfach erklärt: Definition & FAQ, https://www.sem-deutschland.de/seo-glossar/knowledege-graph/, 06.09.2019 (Stand: 13.03.2023, 15:35 Uhr).

[17] S. Fn. 16.

[18]Https://www.seobility.net/de/wiki/Entit%C3%A4t (Stand: 28.03.2023, 11:09 Uhr).

[19] S. Fn. 18

[20] S. Fn. 16.

[21] S. Fn. 16.

[22] S. Fn. 16.

[23] S. Fn. 16.

[24] Rocher, Luc, Hendrickx, Julien M., de Montjoye, Yves-Alexandre: Estimating the success of re-identifications in incomplete datasets using generative models. Nature Communications 10, 3069 (veröffentlicht am 23.07.2019). https://doi.org/10.1038/s41467-019-10933-3.

[25] S. Fn. 24; Polonetsky, J., Tene, O. & Finch, K. Shades of gray: seeing the full spectrum of practical data De-Identification. Santa Clara Law Rev. 56, 593– 629 (2016); Office for Civil Rights, HHS. Standards for privacy of individually identifiable health information. Federal Register. https://ncbi.nlm.nih.gov/ pubmed/12180470 (2002); Malin, B., Benitez, K. & Masys, D. Never too old for anonymity: a statistical stand-ard for demographic data sharing via the HIPAA privacy rule. J. Am. Med. Inform. Assoc. 18, 3–10 (2011).

[26] Hern, A. ‘Anonymous’ browsing data can be easily exposed, researchers reveal., The Guardian (01.08.2017).

[27] S. Fn. 24.

[28] S. Fn. 24.

[29] S. Fn. 24.

[30] S. Fn. 24.

[31] Rocher, Luc, Hendrickx, Julien M., de Montjoye, Yves-Alexandre, (S. Fußn. 25); so auch: El Emam, K. & Arbuckle, L. Anonymizing Health Data (O’Reilly, Newton, MA, 2013); Cavoukian, A. & Castro, D., Big data and innovation, setting the record straight: de-identification does work., http://www2.itif.org/2014-bigdata-deidentification.pdf (2014).

[32] Positionspapier des Bundesbeauftragen für den Datenschutz und die Informationsfreiheit (BfDI) zur Anonymisierung unter der DS-GVO unter besonderer Berücksichtigung der TK-Branche, unter: https://www.bfdi.bund.de/SharedDocs/Downloads/DE/Konsultationsverfahren/1_Anonymisierung/Positionspapier-Anonymisierung.pdf?__blob=publicationFile&v=4, (Stand: 29.06.2020)

[33] Ziebarth, in: Sydow/Marsch, Datenschutz-Grundverordnung/Bundesdatenschutzgesetz, 3. Aufl. 2022, Art. 4 Rn. 24 f.

[34] S. Fn. 33

[35] Vgl. EuGH, Urt. v. 19.10.2016 – C-582/14 – Breyer, ZD 2017, 24 (26) = MMR 2016, 842 (843); Eckhardt, in: Spindler/Schuster, Recht der elektronischen Medien, 4. Auflage 2019, § 98 TKG Rn. 13.

[36] So auch in: Information Commissioner’s Office (ICO), Anonymisation: managing data protection risk code of practice, November 2012, 20.

[37] „Der „Stand der Technik“ ist der Entwicklungsstand fortschrittlicher Verfahren, Einrichtungen oder Betriebsweisen, der die praktische Eignung einer Maßnahme zum Schutz der Gesundheit und zur Sicherheit der Beschäftigten gesichert erscheinen lässt. Bei der Bestimmung des Standes der Technik sind insbesondere vergleichbare Verfahren, Einrichtungen oder Betriebsweisen heranzuziehen, die mit Erfolg in der Praxis erprobt worden sind.“ (vgl. Handbuch der Rechtsförmlichkeit v. 22.09.2008, Rn. 256).

[38] Roßnagel, ZD 2018, 243, 245; Koyuncu, Kügel/Müller/Hofmann, Arzneimittelgesetz, 3. Auflage 2022, Rn. 12-14.

[39] Vgl. Schewior, Christoph, Anonymisierung von Daten – Der BfDI informiert, 30.06.2020, unter: https://www.dr-datenschutz.de/anonymisierung-vondaten-der-bfdi-informiert/.

[40] S. Fn. 37

[41] Vgl. An Coimisiún um Chosaint Sonraí (Datenschutz Komission Irland), Guidance Note: Guidance on Anon-ymisation and Pseudonymisation, 2019, Page 7, unter: https://www.dataprotection.ie/en/dpc-guidance/anonymisation-andpseudonymisation (Stand: 24.03.2023, 16:51 Uhr)

[42] S. Fn. 41.

[43] ErwG. 98 S. 1 (EU) 2016/679.

[44] So auch Wittmann/Ingenrieth in: Plath, DS-GVO – BDSG – TTDSG, 4. Auflage 2023, Rn. 12; Paal/Pauly/Paal/Kumkar, DS-GVO, Art. 40 Rn. 13; Jungkind in: Wolff/Brink, BeckOK DatenschutzR, 43. Ed. 01.11.2021, DS-GVO, Art. 40 Rn. 13.

[45] SCOPE Europe ist die Tochtergesellschaft des Selbstregulierung Informationswirtschaft e.V. welcher es sich zum Ziel gemacht hat, durch glaubwürdige und wirkungsvolle Selbst- und Ko-Regulierung, vor allem im Bereich des Daten- und Verbraucherschutzes, eine innovationsfreundliche und moderne Politikgestaltung zu etablieren. Mehr dazu unter: https://sriw.de/der-sriw.

[46] Mehr unter: https://eucoc.cloud/en/home.

[47] Opinion 16/2021 on the draft decision of the Belgian Supervisory Authority regarding the “EU Data Protec-tion Code of Conduct for Cloud Service Providers” submitted by Scope Europe, 19.05.2021, unter: https://edpb.europa.eu/system/files/2021-05/edpb_opinion_202116_eucloudcode_en.pdf.

[48] Siehe https://www.dataprotectionauthority.be/publications/decision-n05-2021-of-20-may-2021.pdf.

[49] Näheres unter https://geodatenkodex.de/home; Die Erstfassung stammt aus 2011 und wurde 2015 erstmalig überarbeitet; https://geodatenkodex.de/fileadmin/gdk/files/Datenschutz-Kodex_f%C3%BCr_Geodatendienste.pdf. Per 2023 wurde eine an die DS-GVO angepasste Fassung (2.1) veröffentlicht: https://geodatenkodex.de/fileadmin/gdk/files/Geodatenkodex_v2-1.pdf.

[50] So auch Schwartmann/Jaspers/Lepperhoff/Weiß/Meier, Praxisleitfaden zum Anonymisieren personenbezogener Daten – Anforderungen, Einsatzklassen und Vorgehensmodell, Dezember 2022, 27.