Marlene Lutz, Lehr­stuhl für Data Science in den Wirtschafts- und Sozial­wissenschaften: Natural Language Processing (Februar 2023)

Marlene Lutz ist seit 2022 Doktorandin und Wissenschaft­liche Mitarbeiterin am Lehr­stuhl für Data Science in den Wirtschafts- und Sozial­wissenschaften. Zuvor studierte sie Informatik an der RWTH Aachen. Ihr Forschungs­interesse gilt den Themen Responsible Machine Learning, Fair Algorithmic Ranking und Interpretable Word Embeddings.

Was ist Ihr aktuelles Forschungs­thema?

Meine Forschung kann dem Bereich der natürlichen Sprach­verarbeitung („Natural Language Processing“ oder „NLP“) zugeordnet werden. Im Bereich NLP beschäftigen wir uns damit, wie Computer menschliche Sprache verarbeiten und verstehen können. In letzter Zeit werden große auf Machine Learning basierende Sprach­modelle wie BERT und ChatGPT immer populärer und zeigen eine beeindruckende Leistung auf verschiedenen NLP-Problemen. Diese Modelle werden auf Unmengen an Textdaten trainiert und lernen so, wie die menschliche Sprache funktioniert. Je größer diese Modelle jedoch werden, desto schwieriger wird es, zu verstehen, warum sie sich auf eine bestimmte Weise verhalten. Indem man große Sprach­modelle riesigen Mengen an Text aussetzt, lernen sie auch unerwünschte Assoziationen und diskriminierende Verhaltensweisen, die in den Daten kodiert sind. Ich möchte verstehen, was diese Modelle lernen und wie wir Strategien zur Bewältigung von Bias und Stereotypen entwickeln können. Ich denke, dass die Förderung von Fairness und Trans­parenz von entscheidender Bedeutung ist, um sicherzustellen, dass diese Technologien auf ethische und verantwortungs­volle Weise eingesetzt werden.

Für alle, die noch nicht so tief in das Thema Data Science eingestiegen sind: Wie würden Sie einem Kind erklären, woran Sie arbeiten?

Ich beschäftige mich damit, wie Computer menschliche Sprache verstehen und verarbeiten können. Vielleicht hast du schon einmal einen Computer oder ein Telefon gebeten etwas für dich zu tun, wie zum Beispiel etwas in eine andere Sprache zu übersetzen oder Siri oder Alexa zu fragen, ob sie dir einen Witz erzählen können. Diese Dinge werden „Sprach­modelle“ genannt. Aber genau wie Menschen können diese Sprach­modelle Fehler machen. Deshalb geben sie dir machnmal eine falsche Antwort oder antworten dir in einer Weise, die dir oder anderen Menschen das Gefühl gibt,  nicht gut genug zu sein, obwohl das überhaupt nicht stimmt! Ich arbeite daran, diese Modelle zu verbessern und sie für alle verständlicher zu machen. Ich möchte auch sicherstellen, dass sie auf eine gute Art und Weise genutzt werden, die fair und hilfreich für alle ist und keinen Schaden verursacht.

Alle sprechen über Data Science – wie würden Sie die Bedeutung des Themas für sich selbst in drei Worten beschreiben?

Aufschlussreich, vielfältig, schnell

Welche Berührungs­punkte mit Data Science hat Ihre Arbeit? Welche Methoden nutzen Sie bereits und welche wären zukünftig interessant für Sie?

In meiner Arbeit ist Data Science ein Teil jedes Arbeits­chrittes. Um ein Sprach­modell zu erstellen, müssen wir zunächst Textdaten sammeln, bereinigen und aufbereiten. Dann verwenden wir Machine Learning Methoden, um dem Modell ein Verständnis für Sprache beizubringen. Schließlich versuchen wir zu verstehen, welche Muster das Sprach­modell aus den Daten gelernt hat und wie wir es verbessern und fairer machen können. Leider sind viele der derzeit modernsten Sprach­modelle nicht Open-Source. Da ich an Trans­parenz und Ethik interessiert bin, wäre es für mich sehr aufregend, mit diesen Modellen zu arbeiten.

Wie hoch ist der Wert von Data Science für Ihre Arbeit? Wäre Ihre Forschung ohne Data Science überhaupt möglich?

Data Science ist für meine Arbeit absolut entscheidend. Tatsächlich ist die Existenz von Data Science der Grund, warum meine Forschung überhaupt notwendig ist. Ich arbeite daran, datengesteuerte Modelle und Methoden auf ethische und verantwortungs­volle Weise zu nutzen und besser verstehen zu können, warum sie bestimmte Vorhersagen und Entscheidungen treffen.

Welche Entwicklungs­möglichkeiten sehen Sie für das Thema Data Science in Bezug auf Ihr Fach­gebiet?

Das Thema Data Science bringt Forscher und Anwender mit unter­schiedlichen Hintergründen und Fähigkeiten zusammen. Dies gilt insbesondere für die Forschung und Arbeit an Textdaten. Meiner Meinung nach besteht ein Bedarf an mehr und besserer interdisziplinärer Zusammenarbeit zwischen Forschern aus den Bereichen Informatik, Linguistik, Soziologie und Psychologie, um die sozialen und kulturellen Kontexte besser zu verstehen in denen Sprache verwendet wird, und wie diese Faktoren die Entwicklung und den Einsatz von Sprach­verarbeitung beeinflussen können. Insbesondere die nachhaltige Entwicklung und die ethische Nutzung dieser Technologien sind Themen, die all diese Bereiche vereinen und Interdisziplinarität unumgänglich machen.

Zurück