Marlene Lutz, Lehrstuhl für Data Science in den Wirtschafts- und Sozialwissenschaften: Natural Language Processing (Februar 2023)
Was ist Ihr aktuelles Forschungsthema?
Meine Forschung kann dem Bereich der natürlichen Sprachverarbeitung („Natural Language Processing“ oder „NLP“) zugeordnet werden. Im Bereich NLP beschäftigen wir uns damit, wie Computer menschliche Sprache verarbeiten und verstehen können. In letzter Zeit werden große auf Machine Learning basierende Sprachmodelle wie BERT und ChatGPT immer populärer und zeigen eine beeindruckende Leistung auf verschiedenen NLP-Problemen. Diese Modelle werden auf Unmengen an Textdaten trainiert und lernen so, wie die menschliche Sprache funktioniert. Je größer diese Modelle jedoch werden, desto schwieriger wird es, zu verstehen, warum sie sich auf eine bestimmte Weise verhalten. Indem man große Sprachmodelle riesigen Mengen an Text aussetzt, lernen sie auch unerwünschte Assoziationen und diskriminierende Verhaltensweisen, die in den Daten kodiert sind. Ich möchte verstehen, was diese Modelle lernen und wie wir Strategien zur Bewältigung von Bias und Stereotypen entwickeln können. Ich denke, dass die Förderung von Fairness und Transparenz von entscheidender Bedeutung ist, um sicherzustellen, dass diese Technologien auf ethische und verantwortungsvolle Weise eingesetzt werden.
Für alle, die noch nicht so tief in das Thema Data Science eingestiegen sind: Wie würden Sie einem Kind erklären, woran Sie arbeiten?
Ich beschäftige mich damit, wie Computer menschliche Sprache verstehen und verarbeiten können. Vielleicht hast du schon einmal einen Computer oder ein Telefon gebeten etwas für dich zu tun, wie zum Beispiel etwas in eine andere Sprache zu übersetzen oder Siri oder Alexa zu fragen, ob sie dir einen Witz erzählen können. Diese Dinge werden „Sprachmodelle“ genannt. Aber genau wie Menschen können diese Sprachmodelle Fehler machen. Deshalb geben sie dir machnmal eine falsche Antwort oder antworten dir in einer Weise, die dir oder anderen Menschen das Gefühl gibt, nicht gut genug zu sein, obwohl das überhaupt nicht stimmt! Ich arbeite daran, diese Modelle zu verbessern und sie für alle verständlicher zu machen. Ich möchte auch sicherstellen, dass sie auf eine gute Art und Weise genutzt werden, die fair und hilfreich für alle ist und keinen Schaden verursacht.
Alle sprechen über Data Science – wie würden Sie die Bedeutung des Themas für sich selbst in drei Worten beschreiben?
Aufschlussreich, vielfältig, schnell
Welche Berührungspunkte mit Data Science hat Ihre Arbeit? Welche Methoden nutzen Sie bereits und welche wären zukünftig interessant für Sie?
In meiner Arbeit ist Data Science ein Teil jedes Arbeitschrittes. Um ein Sprachmodell zu erstellen, müssen wir zunächst Textdaten sammeln, bereinigen und aufbereiten. Dann verwenden wir Machine Learning Methoden, um dem Modell ein Verständnis für Sprache beizubringen. Schließlich versuchen wir zu verstehen, welche Muster das Sprachmodell aus den Daten gelernt hat und wie wir es verbessern und fairer machen können. Leider sind viele der derzeit modernsten Sprachmodelle nicht Open-Source. Da ich an Transparenz und Ethik interessiert bin, wäre es für mich sehr aufregend, mit diesen Modellen zu arbeiten.
Wie hoch ist der Wert von Data Science für Ihre Arbeit? Wäre Ihre Forschung ohne Data Science überhaupt möglich?
Data Science ist für meine Arbeit absolut entscheidend. Tatsächlich ist die Existenz von Data Science der Grund, warum meine Forschung überhaupt notwendig ist. Ich arbeite daran, datengesteuerte Modelle und Methoden auf ethische und verantwortungsvolle Weise zu nutzen und besser verstehen zu können, warum sie bestimmte Vorhersagen und Entscheidungen treffen.
Welche Entwicklungsmöglichkeiten sehen Sie für das Thema Data Science in Bezug auf Ihr Fachgebiet?
Das Thema Data Science bringt Forscher und Anwender mit unterschiedlichen Hintergründen und Fähigkeiten zusammen. Dies gilt insbesondere für die Forschung und Arbeit an Textdaten. Meiner Meinung nach besteht ein Bedarf an mehr und besserer interdisziplinärer Zusammenarbeit zwischen Forschern aus den Bereichen Informatik, Linguistik, Soziologie und Psychologie, um die sozialen und kulturellen Kontexte besser zu verstehen in denen Sprache verwendet wird, und wie diese Faktoren die Entwicklung und den Einsatz von Sprachverarbeitung beeinflussen können. Insbesondere die nachhaltige Entwicklung und die ethische Nutzung dieser Technologien sind Themen, die all diese Bereiche vereinen und Interdisziplinarität unumgänglich machen.