Anonymisierung von Dokumenten in der Justiz – Teil 3
Anonymisierung von Dokumenten in der Justiz
Erfordernis, rechtliche Grundlagen und technische Möglichkeiten
Themen des ersten Teils unserer Artikelserie über das Anonymisieren von Dokumenten waren eine Beschreibung dessen, was Anonymisierung von Dokumenten ist, und die Frage, weshalb wir sie brauchen. Im zweiten Teil haben wir die rechtlichen Grundlagen der Anonymisierung diskutiert. Lesen Sie nun hier im dritten Teil, welche technischen Möglichkeiten es gibt, Dokumente zu anonymisieren, und welche Rolle Künstliche Intelligenz dabei spielt.
Teil 3: Welche technischen Möglichkeiten gibt es?
Müssen Dokumente vollständig anonymisiert werden, ist zu beachten, dass es zwei Kategorien von Informationen gibt, die Personen identifizieren. Zum einen sind das die direkten Informationen zu einer Person. Das können der Name, die Adresse, das Alter, ID-Nummern usw. sein. Zum anderen gibt es indirekte Informationen, die Personen identifizierbar machen. Ein bekanntes Beispiel ist das rote Einfamilienhaus, das in einer Großstadt gar nicht, in einem Dorf jedoch leicht identifizierbar ist, wo nur fünf Häuser mit jeweils anderer Farbe stehen.
Damit ein Dokument automatisiert und mittels KI anonymisiert werden kann, müssen verschiedene Schritte durchlaufen werden. Zunächst muss die KI diejenigen Informationen in dem Dokument finden, die relevant sind. Danach werden diese Informationen einer Entität (Name, Datum, Straße, Ortsangaben, etc.) zugeordnet.
In diesen beiden Schritten müssen die Informationen eindeutig zuordenbar sein. Ein Datum z.B. entspricht immer einer ähnlichen Form (01.03.2024 oder 1. März 2024) und kann dadurch sehr gut von einer KI aus Dokumenten heraus extrahiert werden und der Entität “Datum” zugeordnet werden. Ähnlich verhält es sich mit Personennamen und Adressen. Die hierzu verwendete Technologie nennt sich Name-Entity-Recognition (NER) und ermöglicht es, direkt Informationen aus Dokumenten zu extrahieren, zu markieren und schlussendlich auch zu schwärzen oder auszutauschen.
Möchte man aber zusätzlich zu den direkten Informationen auch indirekte Informationen anonymisieren, scheitern einfache NER-Technologien, weil hierbei für die KI aus dem Text heraus keine eindeutigen Muster erkennbar sind. Im Beispielfall des roten Hauses bräuchte die KI auch die Information, in welchem Ort das Haus steht, wie groß der Ort ist, und ob es dort weitere rote Häuser gibt. Diese zusätzlichen Informationen müssen extern geholt werden und können aktuell auch nur durch menschliche Recherche bereitgestellt werden. Hinzu kommt, dass die Fülle möglicher indirekter Informationen viel größer als am Beispiel des roten Hauses zu ersehen ist, so dass viele indirekte Informationen zu Personen oftmals bei der Erstellung einer solchen Technologie nicht berücksichtigt und somit nicht anonymisiert werden. Nun gibt es die Möglichkeit zu entscheiden, dass auch Entitäten wie “Farben”, “Gegenstände” usw. anonymisiert werden sollen – hier hieße der Ansatz, lieber mehr zu anonymisieren als zu wenig. Doch stellt sich die Frage, ob die damit zu anonymisierenden indirekten Informationen für das Dokument so wichtig sind, dass sie gar nicht anonymisiert werden dürfen, weil sonst der Sinn des Dokumentes verloren geht. Ist die Farbe “rot” des Hauses zum Beispiel Anlass eines Rechtsstreites, wäre diese Information wichtig und dürfte nicht anonymisiert werden. Hier kommt nun ein weiterer Aspekt ins Spiel, der eine rein technologische Anonymisierung erschwert: der Ermessenspielraum.
Somit wird deutlich: Technologisch lassen sich direkte Personenmerkmale anonymisieren. Indirekte Merkmale sind jedoch nicht nur auf rein technologischem Weg schwer zu erkennen, sondern es kommt das Problem hinzu, bei einer erkannten indirekten Information zwischen Anonymisierung und Erhalt entscheiden zu müssen. Deswegen ist es unerlässlich, den Ansatz der Mensch-KI-Interaktion zu wählen, bei dem die Endanwender: innen in den Entwicklungsprozess einbezogen werden, um direkte und indirekte Informationen zu identifizieren und nach ihrem Grad der Wichtigkeit zu anonymisieren oder zu pseudonymisieren. Bei diesem Ansatz werden alle potenziell personenbezogenen Informationen angezeigt und müssen durch Menschen bestätigt und geändert werden. Letzte Kontrollinstanz bei der täglichen Nutzung der KI-Software sind somit die Endanwender: innen.
Wurden nicht alle personenbezogenen Daten von der künstlichen Intelligenz identifiziert, können Menschen diese Informationen nachträglich auswählen und anonymisieren. Des Weiteren kann die KI sie auch als indirekte Informationen anzeigen, deren Anonymisierung dann durch den Menschen bestätigt oder verworfen wird. Alleine das visuelle Markieren der entsprechenden Textstelle erleichtert und beschleunigt das menschliche Arbeiten im Anonymisierungsprozess. Die künstliche Intelligenz trifft in diesem Fall keine Entscheidung, sondern bereitet Dokumente zur Anonymisierung vor. Das schafft Vertrauen in die Technologie und Sicherheit. Wird darüber hinaus die Mensch-KI-Interaktion automatisiert dokumentiert, kann auch diese Information zum Training der KI genutzt werden, sodass in zukünftigen Versionen das Einschreiten von Menschen immer weniger werden kann: Die KI lernt dann auch indirekte Informationen zu identifizieren und ggf. zu anonymisieren.
Lesen Sie Teil 1: Warum brauchen wir die Anonymisierung von Dokumenten?
Lesen Sie Teil 2: Rechtliche Grundlagen der Anonymisierung von Dokumenten