Tobias Rettig, Forschungsdatenzentrum, Universitätsbibliothek Mannheim: German Internet Panel (April 2024)
![Tobias Rettig hat kurze dunkle Haare und einen Bart. Er trägt eine Brille und ein blaues Hemd.](/media/_processed_/d/f/csm_Tobias_Rettig_credit_Kathrin_Glueckler_79f8ec4f6e.jpg)
Was ist Ihr aktuelles Forschungsthema?
Ich interessiere mich insbesondere für Umfragemethodik und Messfehler, also dafür, wie man Personen befragt und welche Probleme oder Fehlerquellen dabei auftreten können, wie wir unsere Befragungen verbessern und nicht zuletzt, wie wir dadurch am Ende bessere Daten erheben können. Momentan schauen wir uns dazu zum Beispiel über die Gesamtlaufzeit des GIP – inzwischen immerhin knapp 12 Jahre – Teilnahmen und Ausfälle an, um zu sehen, ob wir über die Zeit bestimmte Gruppen von Befragten eher verlieren oder auch ob bestimmte Eigenschaften der Befragungswellen vermehrt zu Ausfällen führen. Wir hoffen, so zum Beispiel frühzeitig Warnzeichen zu identifizieren, um reagieren zu können bevor Personen sich endgültig entscheiden nicht mehr mitzumachen.
Für alle, die noch nicht so tief in das Thema Data Science eingestiegen sind: Wie würden Sie einem Kind erklären, woran Sie arbeiten?
Forschende aus verschiedenen Fächern möchten zu den verschiedensten Themen die Menschen, die in Deutschland leben, nach ihrer Meinung fragen. Genau das machen wir mit unserer Arbeit beim GIP möglich. Dazu befragen wir über das Internet immer wieder die gleichen, zufällig aus der Bevölkerung ausgewählten Leute und helfen den Forschenden von ihrer Idee zu einem fertigen Fragebogen. Wir überwachen dann, dass alles richtig funktioniert, und geben am Ende den Forschenden die Antworten der Leute für ihre Auswertung.
Alle sprechen über Data Science – wie würden Sie die Bedeutung des Themas für sich selbst in drei Worten beschreiben?
Versteckte Muster aufdecken
Welche Berührungspunkte mit Data Science hat Ihre Arbeit? Welche Methoden nutzen Sie bereits und welche wären zukünftig interessant für Sie?
Wir kommen im GIP natürlich in Kontakt mit diversen Forschungsprojekten verschiedener Fachrichtungen und auch mit ganz verschiedenen inhaltlichen Interessen und methodischen Ansätzen. Von der klassischen Befragungsstudie bis zu komplexen Modellierungen mit Freitextantworten oder Paradaten ist da alles dabei. Neben der Möglichkeit, eigene Fragen im GIP zu stellen und neue Daten zu erheben, gibt es auch in den zur Sekundärnutzung vorhandenen Daten noch viel zu entdecken. Zum Beispiel Teilnahmemuster oder Textanalysen der offenen Kommentare zur Befragung, welche Punkte dort häufiger angesprochen werden und vielleicht mit vermehrten Ausfällen in Zusammenhang stehen.
Wie hoch ist der Wert von Data Science für Ihre Arbeit? Wäre Ihre Forschung ohne Data Science überhaupt möglich?
Befragungsdaten zu erheben ist natürlich nur dann sinnvoll, wenn damit am Ende auch jemand arbeiten kann. Dabei gewinnen (zu Recht) auch Punkte wie die langfristige Archivierung, Auffindbarkeit, Dokumentation und Nutzbarkeit (für Sekundäranalysen oder auch Replikationen), anders gesagt die FAIR Data Principles, immer weiter an Bedeutung. Dadurch ist der Nutzen der erhobenen Daten in vielen Fällen nicht mehr nur auf ein einzelnes Forschungsprojekt beschränkt.
Welche Entwicklungsmöglichkeiten sehen Sie für das Thema Data Science in Bezug auf Ihr Fachgebiet?
Ein großes Thema ist in letzter Zeit die Verknüpfbarkeit von Befragungsdaten mit anderen Datenquellen, zum Beispiel digitalen Verhaltensdaten. Eine Hoffnung ist hier, dass diese passiv gesammelt und in Verbindung mit den Befragungsdaten ein vollständigeres und vielleicht auch objektiveres Gesamtbild abgeben können als eine reine Selbstauskunft und zugleich die Menge an Daten, die mit Befragungen gesammelt werden und die damit verbundene kognitive Belastung der Befragten reduziert werden kann.
Daneben ist die automatisierte Analyse von Texten schon länger ein Thema, sei es aus Social Media Posts oder den offenen Textkommentaren zur Befragung, zum Beispiel um herauszufinden welche Punkte besonders oft angesprochen wurden, was die Teilnehmer gestört hat etc. – da ist es oft schon allein aufgrund der Datenmenge nicht möglich, alles einen Menschen „von Hand“ machen zu lassen.