Christopher Klamm, Data and Web Science Group: Aktuelle Sprachmodelle, Dezember 2022
Was ist Ihr aktuelles Forschungsthema?
Mit Hilfe von automatisierter Textanalyse erforsche ich das Konzept Populismus und das gezielte Framing in der Sprache. Populismus ist auf dem politischen Spielfeld weit verbreitet und zeigt sich dabei in ganz unterschiedlichen Ausprägungen, die von Partei zu Partei, von Arena zu Arena und auch von Zeitpunkt zu Zeitpunkt sehr unterschiedlich aussehen können. Populisten bedienen sich rhetorischer Strategien, die darauf abzielen, die Unterstützung in der breiten Bevölkerung zu bekommen, indem sie beispielsweise mit gezieltem Framing an Emotionen appellieren, mit Ängsten oder Vorurteilen spielen oder den Konflikt zwischen „dem Volk“ und „den Eliten“ beschwören. Populismus ist dabei sowohl auf der linken als auch auf der rechten Seite des politischen Spektrums zu finden. Das macht eine einheitliche Definition des Konzeptes selbst zu einer großen Herausforderung, was sich in den unterschiedlichen Ansätzen in diesem Feld zeigt. Meine Forschung beschäftigt sich im ersten Schritt damit, diese messbare Konzeptualisierung zu entwerfen, die das Konzept messbar macht, aber gleichzeitig der Vielfältigkeit von Populismus Rechnung trägt. Mit diesem Framework lege ich die Grundlage, um Populismus in Texten zu analysieren. Ich schaue mir anhand von Parlamentsdebatten des Deutschen Bundestages beispielhaft das Aufkommen in einer konkreten Politikarena an. Um die Analyse dieser Debatten auf Deutsch zu automatisieren, bringe ich neuartigen Modellen bei, welche Eigenschaften Populismus haben kann, damit diese Modelle jene Eigenschaften von Populismus in großen Datenmengen künftig automatisch erkennen können. Dazu wird eine Vielzahl an Beispielen durch AnnotatorInnen analysiert und mit Hilfe des erstellten Frameworks den Dimensionen und Ausprägungen von Populismus zugeordnet. Diese Annotationen stellen die Grundlage für den eigentlichen Lernprozess dieser Modelle dar. Besonders wie diese Modelle lernen und ob diese neuen Modelle die Eigenschaften von Populismus überhaupt lernen können, ist zentral für meine Forschung. Besonders spannend für meine Arbeit ist dabei die Frage der Machbarkeit, ob mit aktuellen Modellen aus dem Bereich der automatischen Textanalyse Modelle komplexe, soziale und politische Phänomene überhaupt erfasst werden können.
Für alle, die noch nicht so tief in das Thema Data Science eingestiegen sind: Wie würden Sie einem Kind erklären, woran Sie arbeiten?
Populismus ist eine besondere Art, wie über etwas gesprochen wird. Menschen, wie z.B. PolitikerInnen, die populistische Sprache verwenden, betonen dabei besonders, dass sie gegen eine böse und mächtige Gruppe kämpfen, die versucht, die Macht an sich zu reißen. Populisten präsentieren sich als die VertreterInnen der einfachen Menschen und verwenden dabei bestimmte Phrasen oder Begriffe. Ich verwende Computer, um diese Begriffe zu identifizieren und zu verstehen, wann und welche Begriffe Populisten besonders verwenden. Das Ziel ist es, Computern beizubringen, selbst Menschen und Texte zu erkennen, die populistische Sprache verwenden.
Alle sprechen über Data Science – wie würden Sie die Bedeutung des Themas für sich selbst in drei Worten beschreiben?
Open science opportunity
Welche Berührungspunkte mit Data Science hat Ihre Arbeit? Welche Methoden nutzen Sie bereits und welche wären zukünftig interessant für Sie?
Ich verwende ein breites Spektrum an Methoden aus dem Data Science Bereich. Zum einen steht die Verarbeitung von großen Textmengen, wie den Parlamentsdebatten in Deutschland, im Fokus meiner Arbeit. Zum anderen spielt Data Science in der Analyse dieser großen Datenmengen für mich eine entscheidende Rolle. Um die einzelnen Dimensionen und Eigenschaften von Populismus erkennen zu können und Muster zu verstehen, trainiere ich aktuelle Sprachmodelle der Textanalyse. Diese Modelle haben das Ziel, bestimmte Muster in Texten mit Eigenschaften von Populismus zu verknüpfen, um danach eigenständig in Texten, wie zum Beispiel politischen Reden, diese Muster automatisch vorherzusagen. Die hier verwendeten Sprachmodelle lernen beispielsweise, was es genau bedeutet, wenn PolitikerInnen negative Aussagen über eine Gruppe der Eliten treffen, um diese zu diskreditieren. Die rasante Entwicklung der automatischen Sprachanalyse bietet für mich einen großen Pool an zukünftigen methodischen Erweiterungen. Um meine Analyse zu verbessern, plane ich beispielsweise, domänen-spezifische und noch stärker kontextualisierte Sprachmodelle zu verwenden, die in der Lage sind, die Nuancen und feinen Merkmale des Sprachgebrauchs in verschiedenen kulturellen Kontexten und im Zeitverlauf besser zu erfassen. Mit Hilfe von Data Science soll damit ein breiteres Spektrum an Weltwissen erfasst werden, welches hilft, wertvolle Einblicke in soziale und politische Phänomene zu gewinnen und ihre zugrunde liegenden Mechanismen und Dynamiken besser zu verstehen.
Wie hoch ist der Wert von Data Science für Ihre Arbeit? Wäre Ihre Forschung ohne Data Science überhaupt möglich?
Sehr hoch. Data Science bietet überhaupt erst die Möglichkeit, meine Arbeit in dieser Form anzugehen und Populismus auf eine derart umfassende Weise zu betrachten. Ohne Data Science, sowohl von der Daten-Perspektive als auch der methodischen Ebene der automatischen Verfahren her, wäre meine Forschung nicht möglich. Es ist in meiner Forschung sowohl eine Methode als auch eine Art Prüfstein. Ein Prüfstein mit der Frage, ob es überhaupt möglich ist, mit Methoden aus dem Bereich Data Science komplexe Konzepte wie Populismus zu modellieren und zu analysieren. Ich verwende damit Data Science auch, um die aktuellen Grenzen der bestehenden Methoden zu betrachten und den Bedarf an notwendigen nächsten Entwicklungsschritten aufzuzeigen, um komplexe Konzepte, wie beispielsweise Populismus, automatisch zu untersuchen.
Welche Entwicklungsmöglichkeiten sehen Sie für das Thema Data Science in Bezug auf Ihr Fachgebiet?
Ich sehe ein unglaubliches Entwicklungspotenzial. Ich denke, dass in der Zukunft ForscherInnen noch intensiver die riesigen Datenmengen, die ihnen jetzt zur Verfügung stehen, für ihre Forschung nutzen werden. In denke auch, dass Data Science in der sozialwissenschaftlichen Forschung in zunehmendem Maße die Verwendung und Verknüpfung von verschiedenen Echtzeitdaten und die Entwicklung von Echtzeit-Analysewerkzeugen ermöglicht, die die Forschenden in die Lage versetzt, unmittelbarer Prozesse zu analysieren und sich verändernde soziale Phänomene in ihrem Entstehen noch genauer anzuschauen. Was ich im Zuge der Entwicklung von Data Science und dem Einzug in unterschiedliche Bereiche auch wichtig finde, ist die Transparenz. Besonders in Richtung der Vertiefung von Open-Science-Standards (“open-science” by default), bei denen Forschungsdaten und -methoden transparenter und für andere zugänglich gemacht werden. Ich denke, dass dies zur Demokratisierung der Forschung beitragen kann, aufgrund einer einfacheren Zugänglichkeit und einer leichteren Reproduktion bzw. Überprüfung von Forschungsergebnissen. Ein weiterer wichtiger Aspekt für die Entwicklung von Data Science ist für mich die Entwicklung von gemeinsamen Standards und bewährten Verfahren für die Verarbeitung von Daten sowie dem Training komplexer Modelle. Gleichzeitig sehe ich auch viele Entwicklungsmöglichkeiten in Bezug auf verzerrungsfreie Methoden. Diese werden sicher für die Entwicklungsmöglichkeiten und die Akzeptanz von neuen Methoden aus dem Data Science Umfeld eine wichtige Rolle spielen, da ForscherInnen sicherstellen müssen, dass ihre Daten und Methoden nicht in einer Weise verzerrt sind, die ihre Ergebnisse verfälschen könnten. Um diese Probleme anzugehen, müssen ForscherInnen möglicherweise zukünftig neue Benchmarks, spezielle Tests und andere Instrumente entwickeln, die ihnen helfen, die Qualität und Zuverlässigkeit ihrer Daten und Methoden zu bewerten. Hier spielen zudem Fragen, wie zum Beispiel die Frage nach den aufzuwendenden Rechenressourcen, auch eine wichtige Rolle. Entwicklungen in Bezug auf ressourcensparende Data Science finde ich hier sehr wichtig. Ich denke aber, dass all diese Entwicklungen nur in einer engen Zusammenarbeit zwischen den unterschiedlichen Bereichen möglich sind. Ich freue mich in jedem Fall sehr auf eine spannende Zukunft mit sehr viel Entwicklungspotenzial.