Erstellung weiterer Scientific Use Files der HIS-Absolventenpanel 1989, 1993 und 2001

HIS beabsichtigt, die Nutzung weiterer, der von ihr erhobenen, Daten durch die Wissenschaft für Forschung und Lehre systematisch und deutlich zu erleichtern. Dafür sollen in einem Folgeprojekt des "SUF I" (Erstellung eines Scientific Use Files aus dem HIS-Absolventenpanel 1997) weitere sog. Scientific Use und sog. Campus Files erstellt werden.

Das vom BMBF geförderte Projekt verfolgt drei Ziele: Die weitere Öffnung des Datenangebotes aus Befragungen des Hochschul-Informations-Systems (HIS), die Verallgemeinerung der Ergebnisse aus der Pilotphase SUF I und die Öffnung des Datenbestandes für Studierende. Dazu im Einzelnen:

1) Weitere Öffnung des Datenangebotes aus HIS-Befragungen:

Weitere Absolventenbefragungen sollen an die mit dem Pilotprojekt SUF I geschaffene allgemeine Datenstruktur angepasst und als Scientific Use Files (SUF) zur Verfügung gestellt werden, die sowohl Panelauswertungen als auch Kohortenvergleiche ermöglichen. HIS strebt mit diesem Projekt an, bisher durchgeführte Erhebungen des Absolventenpanels als SUF umzusetzen. Es handelt sich dabei um die Absolventenkohorten der Jahre 1989 (1. und 2. Befragung), 1993 (1. und 2. Befragung) sowie 2001 (1. und 2. Befragung).

Mit der Umsetzung der bundesweit repräsentativen HIS-Absolventenpanels als Scientific Use Files erhalten wissenschaftliche Nutzer Zugriff auf ein im Bereich der Hochschulforschung einzigartiges und vielseitiges Analysepotential: Möglich sind Analysen zeitnaher und längerfristiger Entwicklungen des Verhältnisses von Hochschulbildung und Beschäftigung, damit verbunden die Stationen der Berufseinmündung im Zeitverlauf und Fragen der beruflichen Integration bzw. Allokation; Berufe wurden vierstellig verkodet und lassen sich in ISCO umsetzen; möglich ist auch das Zuspielen wirtschaftstatistischer Merkmale etc. Der Scientific Use File des HIS-Absolventenpanels ist der einzige Datensatz in Deutschland, mit dem die Bearbeitung von zentralen Fragen der Hochschulforschung über einen derart flexiblen Zugang möglich ist.

2) Verallgemeinerung der Ergebnisse aus dem Pilotprojekt SUF I:

Angestrebt werden die Verallgemeinerung der Analysen zur Risikoabwägung und der Anonymisierungsstrategien sowie die Anwendung der Anonymisierungsmaßnahmen aus dem Pilotprojekt auf die anderen Absolventenbefragungen von 1989, 1993 und insbesondere 2001. Weiterhin wird die Übertragung der Ergebnisse der Risikoabwägung auf Absolventenerhebungen anderer Einrichtungen (Hochschulen, Institute etc.) und auf weitere HIS-Befragungen (Studienberechtigte, Studienanfänger/innen und Studierende) geprüft. Außerdem soll die Dokumentation der jeweiligen Befragungen dem erarbeiteten Standard angepasst werden. Die Dokumentationen stehen auch Gastwissenschaftler/inne/n zur Verfügung, die andere Formen des Datenzugangs nutzen.

Erhebungen bei Hochschulabsolvent/inn/en sind bisher noch nicht als Scientific Use File umgesetzt worden. Erst mit dem Pilotprojekt SUF I stellte sich die Frage, wie die für die Datenweitergabe notwendige faktische Anonymität der Befragten sichergestellt werden kann. Möglicherweise entstehende Probleme bei dem Versuch, sowohl Datensicherheit als auch ein hohes Maß an Analysequalität in einem SUF zu gewährleisten, werden in einer Risikoabwägung abgeschätzt. Dabei zeigte sich, dass für die Spezialpopulation der Hochschulabsolvent/inn/en besondere Bedingungen gelten: Insbesondere regionale Merkmale wie der Hochschulort in Verbindung mit dem Studienfach-/gang sowie der Beschäftigungsort, bedeuten ein erhöhtes Reidentifikationsrisiko. Ob Personen ohne besonderen Aufwand eindeutig mit Datensätzen aus dem SUF in Verbindung gebracht werden können, also identifiziert werden, kann argumentativ und empirisch geprüft werden. Dazu werden Szenarien entwickelt, die berücksichtigen, wie eine Person vorgehen würde, die Interesse an der Aufdeckung personenbezogener Daten einzelner oder mehrerer Befragter hat. Im Pilotprojekt Phase I wurden alle möglichen Szenarien argumentativ geprüft. Der vorgegebene Zeitrahmen ließ darüber hinaus die empirische Prüfung öffentlich zugänglicher Quellen zu.

Mit dieser Erweiterung wird eine umfassende, empirische Prüfung des Reidentifikationsrisikos für die HIS-Absolventenbefragungen vorgenommen. Diese Erkenntnisse können bei Bedarf auf weitere Befragungen aus der Hochschulforschung übertragen werden und stellen somit eine wichtige Vorarbeit nicht nur für die Datenöffnung von HIS, sondern auch anderen Einrichtungen/Instituten dar, die Daten im Bereich der Hochschulforschung produzieren.

3) Öffnung des Datenbestandes für Studierende:

Mit der Erstellung der Scientific Use Files soll auch eine Öffnung des Datenbestandes für Studierende der Hochschulen erfolgen und Originaldaten aus den HIS-Erhebungen in Form so genannter Campus Files einschließlich der zugehörigen Dokumentationen bereit gestellt werden. Es ist beabsichtigt, diejenigen Erhebungen als Campus File zur Verfügung zu stellen, die auch als Scientific Use Files erstellt werden sollen. Mit diesem zusätzlichen Angebot soll eine Kooperation fortgesetzt werden, die zwischen HIS und Hochschulen auf dem Gebiet der Methodenausbildung seit längerem existiert. Auf Basis der HIS-Absolventendaten sind zahlreiche Examensarbeiten angefertigt worden. Dieser Umstand unterstreicht dass Interesse von Studierenden, mit solchen Daten zu arbeiten.

Campus Files, bei denen es sich um kleinere Stichproben des Original-Datensatzes handelt, lassen sich gut für die Methodenausbildung an den Hochschulen verwenden und können in der Lehre als realistische Datenbasis für die Planung und Durchführung wissenschaftlicher Analysen eingesetzt werden. Die Campus Files lassen sich heranziehen, um praktisch orientierte Seminararbeiten zu erstellen; darauf aufbauend können Examensarbeiten mit den entsprechenden Scientific Use Files oder durch Nutzung anderer von HIS angebotenen Analysemöglichkeiten, wie dem Fernrechnen oder einem Gastwissenschaftlerarbeitsplatz, angefertigt werden.
Aus Datenschutzgründen muss ein Campus File absolut anonymisiert sein, auch mit einem sehr hohen Aufwand darf eine Reidentifikation nicht möglich sein. Da ein Campus File nur eine beschränkte Anzahl von Forschungsfragen bedienen soll, kann diese Anforderung durch Zusammenfassung und Reduzierung verschiedener Merkmale erfüllt werden.

Die notwendigen Arbeitsschritte lehnen sich an die Vorgehensweise im Pilotprojekt SUF I an, sind bezüglich des Arbeitsvolumens aber anders akzentuiert. Einen inhaltlichen Unterschied zum Pilotprojekt stellt der Arbeitsschwerpunktpunkt E dar, der sich auf die Bereitstellung der Absolventendaten für Studierende der Hochschulen bezieht und damit schwerpunktmäßig der Erreichung von Ziel 3 (Öffnung des Datenbestandes für Studierende) dient.

Die Arbeit in diesem Projekt gliedert sich in fünf Schwerpunkte:

  • Die Anonymisierung der Datensätze, die insbesondere auf Anonymisierungsstrategien zielt, die eine Deanonymisierung einzelner Fälle unmöglich machen (z. B. durch Aggregation von Variablen oder Hinzufügen eines Zufallswertes zu einzelnen Variablen).
  • Die Aufbereitung der Datendateien, damit sie ohne größere Schwierigkeiten von Dritten genutzt werden können.
  • Die Dokumentation der Datensätze anhand eines ausführlichen Codebuches, einer Beschreibung der Gewichtungsverfahren und einer kommentierten Literaturliste über die auf Basis der Datensätze erstellten Veröffentlichungen.
  • Die technische Erstellung der Datendateien im ASCII-Format, als Setup-Datei für STATA und in Formaten weiterer häufig verwendeter Statistikprogramme (SPSS, SAS).
  • Die Bereitstellung von Absolventendaten für die Lehre: Bei der Erstellung von Campus Files für die Nutzung an den Hochschulen gelten andere Bedingungen als bei der Erstellung von Scientific Use Files. Für die Umsetzung sind neben der Klärung rechtlicher Fragen vor allem Umstände und Auswirkungen auf die Befragungsmerkmale bei der Herstellung absoluter Anonymität zu prüfen.

In dieses Projekt bezieht HIS verschiedene Institutionen, die bereits über Erfahrungen mit der Erstellung von Scientific Use und Campus Files verfügen, ein (z. B. ZUMA, Forschungsdatenzentrum des Statistischen Bundesamtes).

Die Datensätze der Absolventenkohorte 2001 (1. und 2. Befragung) stehen inzwischen im Datenbestandskatalog der Gesis zur Verfügung. Die Absolventenbefragungen 1993 und 1989 werden demnächst dort abzurufen sein.

Nähere Auskünfte