Lea Cohausz, Lehr­stuhl für Künstliche Intelligenz: Causal Modelling (Januar 2023)

Lea Cohausz ist Doktorandin mit dem Schwerpunkt Künstliche Intelligenz an der Universität Mannheim. Zuvor hat sie hier Soziologie im Bachelor und den Mannheimer Master für Data Science studiert. Ihr Forschungs­interesse gilt Data Mining im Bildungs­bereich, dem menschlichen Verhalten sowie Goal Recognitation und Plan Recognition.

Was ist Ihr aktuelles Forschungs­thema?                                             

Ich beschäftige mich aktuell hauptsächlich mit der Verbindung von kausalen und Black-Box-Modellen. Black-Box-Modelle sind z.B. Neuronale Netzwerke, die in der Data Science Community gerade ungemein populär sind. Sie sind sehr gut darin, ohne Expertenwissen Zusammenhänge in den Daten zu erkennen und akkurate Vorhersagen zu treffen. Leider sind sie nicht besonders gut darin, uns auch mitzuteilen, warum sie eine Vorhersage getroffen haben. Kausal­modelle hingegen erlauben es uns, genau zu verstehen, welche Faktoren auf eine Variable wirken und wie stark der Effekt der Zusammenhänge ist. Der Nachteil hier ist nur: Kausal­modelle zu konstruieren, benötigt im Regelfall viel Expertenwissen und am Ende sind solche Modelle, wenn man sie für Vorhersagen nutzt, leider nicht so akkurat wie Black-Box-Modelle. Kausal­modelle, bzw. die verwandten Bayes Netze oder Directed Acyclic Graphs, sind zwar durchaus auch ein Thema in der Informatik bzw. der Data Science Community innerhalb der Informatik; aktuell sind sie aber eher eine Randerscheinung. Weil ich jedoch glaube, dass sie Vorteile mit sich bringen, die Black-Box-Modelle selbst mit post-hoc Explainable Artificial Intelligence Techniken einfach nicht haben, suche ich nach Möglichkeiten, die Vorteile der beiden Ansätze zu verbinden. Ein guter „Neben-“ Effekt davon ist übrigens auch, dass es einem ganz klar macht, ob man problematische Variablen (z.B. Ethnie) für Vorhersagen verwendet – Fairness ist auch eines meiner Interessengebiete.

 

Für alle, die noch nicht so tief in das Thema Data Science eingestiegen sind: Wie würden Sie einem Kind erklären, woran Sie arbeiten?

Ich suche nach Methoden, um Ereignisse besser vorherzusagen, aber auch besser zu verstehen. Nehmen wir mal an, dass du in ein paar Wochen in der Schule einen Test schreibst. Ich möchte schon jetzt herausfinden, wie gut du abschneiden wirst. Aber ich möchte nicht nur wissen, wie du abschneidest, denn das würde ja nichts bringen. Ich versuche auch, herauszufinden, warum du wahrscheinlich so abschneiden wirst. Sagen wir mal, mein Computer sagt vorher, dass du wahrscheinlich nur so eine mittelmäßige Punktzahl erreichen wirst. Er stellt dann als nächstes fest, dass du ein Thema noch nicht ganz verstanden hast und dir eine bestimmte zusätzliche Übung vielleicht helfen würde, das Thema besser zu verstehen. Ich würde dir dann empfehlen, diese Übung zu machen. Hoffentlich hilft dir das. Tatsächlich arbeite ich sogar wirklich viel mit Daten aus dem Bildungs­bereich – das ist schließlich ein ganz wichtiges Thema.

Alle sprechen über Data Science – wie würden Sie die Bedeutung des Themas für sich selbst in drei Worten beschreiben?

Spannend, bisweilen sinnvoll.

Welche Berührungs­punkte mit Data Science hat Ihre Arbeit? Welche Methoden nutzen Sie bereits und welche wären zukünftig interessant für Sie?

Meine Arbeit lässt sich ganz klar dem Bereich Data Science zuordnen. Manche meiner Methoden (zum Beispiel Directed Acyclic Graphs und kausale Inferenz) kommen eher aus der klassischen Statistik, aber die Trennschärfe zwischen Statistik und Data Science ist ja nicht immer gegeben. Die meisten Methoden, z.B. Neuronale Netzwerke, lassen sich ganz direkt dem Bereich Data Science zuordnen. Methoden, die in Zukunft für mich vermutlich interessant sind, sind die, die zwischen der klassischen Statistik und Data Science liegen. Interessant für mich ist darüber hinaus alles, was der Fairness in dem Bereich Rechnung trägt.

Wie hoch ist der Wert von Data Science für Ihre Arbeit? Wäre Ihre Forschung ohne Data Science überhaupt möglich?

Sehr hoch. Naja, nein.

Welche Entwicklungs­möglichkeiten sehen Sie für das Thema Data Science in Bezug auf Ihr Fach­gebiet?

Sehr große. Ich muss das ja sagen, weil mein Fach­gebiet Data Science ist und ich doch sehr hoffe, dass es nicht für alle Zeit stagniert. Aber mal etwas ernsthafter: Bislang war es relativ stark so, dass Informatiker ziemlich allgemeine Methoden entwickelt und verschiedene Disziplinen dann Anwendungen dafür gefunden haben. Das lief bislang ja auch gut, weil es da erstmal viel zu tun gab. Zum Beispiel kann man eine Mischung aus Computer Vision und Natural Language Processing nehmen, um mittelalterliche Text-Corpora zu digitalisieren und übersetzen. Total hilfreich und super. Oder man kann riesige Mengen an realen Netzwerkdaten aus den sozialen Medien crawlen, was für Sozial­wissenschaft­ler neue Daten bereitstellt. Ich glaube, dass durch Data Science viele Disziplinen ganz neue Optionen bekommen haben. Langsam ist es aber so, dass die anderen Disziplinen (oder auch Wirtschafts­zweige) speziellere Probleme haben, bei denen allgemeine Methoden nicht direkt helfen, oder sich fragen, wie sie konkret ihre längst entwickelten Methoden mit Data Science verknüpfen können. Dazu gehören für mich auch Ansätze aus dem „Human in the Loop“-Bereich, also Anwendungen, bei denen Data Science Methoden und menschliches Expertenwissen kontinuierlich verknüpft werden. Zusätzlich gewinnt der Fairness-Aspekt der Anwendungen viel stärkere Bedeutung. Das führt in der Data Science Community zu neuen Impulsen und hoffentlich eben ganz neuen Methoden. Ich gehe deswegen übrigens auch davon aus, dass die Community noch etwas interdisziplinärer wird. Ich bin auf jeden Fall gespannt und freue mich darauf.

Zurück