Verschlüsselung und Datensatzabgleich
in einem epidemiologischen Krebsregister
am Beispiel von CARLOS

W. Thoben, H.-J. Appelrath
Institut OFFIS, Westerstr. 10-12, 26121 Oldenburg

1. Einleitung

Das Projekt CARLOS (Cancer Registry Lower-Saxony) untersucht in der Pilotphase 1993/ 94 in der Modellregion Weser-Ems die grundsätzliche Anwendbarkeit des zum 1.1.1995 in Kraft tretenden Bundeskrebsregistergesetzes [1] für ein bevölkerungsbezogenes, epidemiologisches Krebsregister in Niedersachsen.

Das Projekt ([2], [3]) gliedert sich in vier Teilprojekte, in denen die Integration krebsregistrierender Einrichtungen (I), die Chiffrierung/ Dechiffrierung von Krebsmeldungen (II), der Abgleich anonymisierter Meldungen in der Registerstelle (III) und die Entwicklung eines epidemiologischen Informationssystems (IV) betrachtet werden.

Im folgenden werden lediglich die Arbeiten der Teilprojekte II und III dargestellt, da diese sich mit der Umsetzung des dem Bundeskrebsregistergesetz zugrundeliegenden sogenannten "Michaelis-Modell" ([4], [5]) befassen. Um in einem epidemiologischen Krebsregister den datenschutzrechtlichen Aspekten bei der Verarbeitung personenbezogener Datensätze gerecht zu werden, findet in diesem eine Anonymisierung der Meldungen mit Hilfe eines asymmetrischen Verschlüsselungsverfahrens statt. Da jedoch häufig zu einem Patienten im Laufe der Jahre mehrere Meldungen an ein Krebsregister erfolgen, muß ein Abgleich von neuen mit bereits vorliegenden Meldungen realisiert werden. Der im Rahmen der Pilotphase untersuchte Ansatz für einen solchen Abgleich von Datensätzen (Record Linkage) basiert auf der Verwendung von Kontrollnummern, das sind deterministische Einwegverschlüsselungen von Zeichenkombinationen aus den personenbezogenen Datenfeldern (z.B. Name, Vorname, Geburtsdatum etc.) einer Meldung. Empirische Untersuchungen bzgl. verschiedener Datenquellen (Nachsorgeleitstelle Oldenburg, Totenscheine aus dem Gesundheitsamt Oldenburg) dienen dazu, solche Kontrollnummern bzw. Kombinationen von Kontrollnum-mern zu finden, die eine möglichst fehlerfreie Zusammenführung der Datensätze gewährleisten.

Abschließend wird ein bundesweit kompatibles Vorgehen für den Einsatz eines solchen Modells für epidemiologische Krebsregister vorgeschlagen.

2. Verschlüsselung personenidentifizierender Daten

In der Kryptographie werden symmetrische und asymmetrische Verschlüsselungsverfahren unterschieden, wobei in einem symmetrischen System genau ein Schlüssel und in einem asymmetrischen System ein Schlüsselpaar (öffentlicher und geheimer Schlüssel) für die Ver- und Entschlüsselung verwendet wird. Der öffentliche Schlüssel dient dabei zur Verschlüsselung der Klartextmeldungen, und mittels des geheimen Schlüssels wird der entstandene Schlüsseltext wieder auf den Klartext abgebildet ([6], [7]).

In der Pilotphase zum Aufbau eines Niedersächsischen Krebsregisters wird für die Anonymisierung der personenbezogenen Daten einer Krebsmeldung ein hybrides Verschlüsselungssystem benutzt. Diese Variante basiert auf einer Kombination eines symmetrischen und eines asymmetrischen Verfahrens, wobei die personenidentifizierenden Daten unter Verwendung eines temporär erzeugten zufälligen Sitzungsschlüssels (random session key) durch das symmetrische Verschlüsselungssystem anonymisiert und lediglich der Sitzungsschlüssel in einem asymmetrischen Verfahren (RSA-Verfahren) verschlüsselt wird. Dieses Vorgehen bietet auf der einen Seite die Möglichkeit einer verteilten Schlüsselverwaltung (öffentlicher und geheimer Schlüssel des asymmetrischen Chiffriersystems), auf der anderen Seite wird das Laufzeitverhalten eines Chiffriervorganges deutlich verbessert, da lediglich der temporäre Sitzungsschlüssel durch das asymmetrische Chiffrierverfahren, das im Vergleich zum symmetrischen Verfahren deutlich langsamer ist, verschlüsselt wird.

Laufzeitmessungen auf einer SUN SPARCstation 10 zeigen, daß eine Chiffrierung von personenidentifizierenden Daten bzw. Dechiffrierung von Schlüsseltexten bei heute bereits verfügbaren, modernen Rechnersystemen zeitunkritisch "im Hintergrund" bearbeitet werden kann und den parallelen Arbeitsablauf einer Dokumentation nicht behindert.

3. Abgleich anonymisierter Daten

Der Abgleich von Neu-/ Mehrfachmeldungen mit bereits vorhandenen Krebsfällen des Krebsregisters wird mittels Kontrollnummern realisiert. Hierbei sind neben den Synonymfehlern, d.h. verschiedene Meldungen zu einer Person werden unterschiedlichen Personen zugeordnet, noch die Homonymfehler, d.h. Meldungen unterschiedlicher Personen werden auf die gleiche Person abgebildet, zu berücksichtigen. Während Synonymfehler ausschließlich durch Erfassungsfehler entstehen, können Homonyme auch durch die Kontrollnummern (bei zu starker Reduktion der Information, z.B. nur Verwendung von Namensinitialen) selbst erzeugt werden.

Ziel ist es, Kontrollnummern bzw. Kombinationen von Kontrollnummern zu ermitteln, die minimale Synonym- und Homonymraten erzeugen und somit einen Abgleich mit akzeptablen Fehlerraten realisieren.

Untersuchungen an drei unterschiedlichen Datenquellen (Nachsorgeleitstelle Oldenburg, Totenscheine des Gesundheitsamtes Oldenburg, Ma.-Ca.-Fälle der Stadt Oldenburg und des Kreises Ammerland) haben gezeigt, daß Kontrollnummern nicht isoliert verwendet werden können, da ihre Synonymraten keine akzeptablen Ergebnisse liefern, während die Homonymraten durchgängig unter 1 % liegen [8].

Daher sind auch disjunktive Verknüpfungen von Kontrollnummern untersucht worden, mit denen eine erhöhte Fehlertoleranz beim Abgleich erreicht werden kann. Die Ergebnisse dieser Untersuchungen bieten Kombinationen von Kontrollnummern an, deren Synonymraten um 2,5 % und deren Homonymraten um 0,2 % liegen und somit akzeptabel sind.

Die Ergebnisse der empirischen Untersuchungen zeigen, daß ein Abgleich anonymisierter Krebsmeldungen mit Hilfe von kombinierten Kontrollnummern realisierbar ist. Die Laufzeitmessungen für die Generierung der Kontrollnummern liegen bei ca. 1 sec/ Meldung (exkl. Einwegverschlüsselung), und die Verwendung moderner DB-Systeme mit 3.000 Vergleichen/ sec gewährleistet, daß auch der Abgleich anonymisierter Datensätze mittels Kontrollnummern keine entscheidende Zeitbelastung für ein epidemiologisches Krebsregister darstellt.

4. Vorschlag für ein einheitliches Vorgehen

Im Rahmen der GMDS-Projektgruppe Krebsregister haben die Arbeitsgruppen in Mainz (Michaelis und Mitarbeiter) und Oldenburg (Appelrath und Mitarbeiter) ihre Untersuchungen zum Aufbau eines epidemiologischen Krebsregisters miteinander verglichen und ein gemeinsames Vorgehen für die Einrichtung zukünftiger epidemiologischer Krebsregister vorgeschlagen.

Literatur

1. Gesetz über Krebsregister (Krebsregistergesetz KRG). Drucksachen 12/6478, 12/7726, 12/8287. Bonn 1994.

2. Appelrath, H.-J.; Thoben, W.; Rettig, J.; Sauer, S.: CARLOS (Cancer Registry Lower-Saxony) - Tätigkeitsbericht für den Zeitraum 1.4.-1.11.1993. Oldenburg 1993.

3. Brand, H.; Reichling, I.; Appelrath, H.-J.,; Illiger, H.-J.; Unger, I.; Windus, G.: CARLOS (Cancer Registry Lower-Saxony) - Pilotstudie für ein bevölkerungsbezoge-nes Krebsregister in Niedersachsen. In: Pöppl, S.J.; Lipinsky, H.-G.; Mansky, T. (Hrsg.): Medizinische Informatik - Ein integrierender Teil arztunterstützender Tech-nologien. S. 404-406. MMV Medizin Verlag. München 1994.

4. Michaelis, J.; Krtschil, A.: Aufbau des bevölkerungsbezogenen Krebsregisters für Rheinland-Pfalz. In: Ärzteblatt Rheinland-Pfalz, 45. S. 434-438. 1992.

5. Schmidtmann, I.; Pommerening, K.; Michaelis, J.: Pilotstudie zum Aufbau eines bevölkerungsbezogenen Krebsregisters für Rheinland-Pfalz. In: Pöppl, S.J.; Lipinski, H.-G.; Mansky, T. (Hrsg.): Medizinische Informatik - Ein integrierender Teil arztunterstützender Technologien. S. 399-403. MMV Medizin Verlag. München 1994.

6. Rivest, R. L.; Shamir, A.; Adleman, L.: A Method for Obtaining Digital Signatures and Public-Key Cryptosystems. In: Communications of the ACM, Vol. 21, No. 2. S.120-126. 1978.

7. Fumy, W.; Rieß, H. P.: Kryptographie - Entwurf und Analyse symmetrischer Kryptosysteme. Oldenbourg-Verlag. München 1988.

8. Thoben, W.; Appelrath, H.-J.; Sauer, S.: Record linkage of anonymous data by control numbers. In: Tagungsband GfKl-Jahrestagung 1994. Oldenburg 1994.