Beispiele für Stereotypen findet man bei kommerziellen, KI-gestützten Anwendungen wie ChatGPT oder DeepL. Sie nehmen häufig automatisch an, dass leitende Ärzt*innen männlich und Pflegekräfte weiblich sind. Doch nicht nur bei Geschlechterrollen können große Sprachmodelle bestimmte Tendenzen zeigen. Gleiches lässt sich auch in Bezug auf andere menschliche Merkmale feststellen und messen. Das haben Forschende der Universität Mannheim und des GESIS – Leibniz-Instituts für Sozialwissenschaften in einer neuen Studie anhand einer Reihe von offen verfügbaren Large Language Models (LLMs) aufgezeigt.
Im Rahmen ihrer Studie haben die Forschenden mithilfe von etablierten psychologischen Tests die Profile der unterschiedlichen LLMs untersucht und miteinander verglichen. „In unserer Studie zeigen wir, dass man psychometrische Tests, die seit Jahrzehnten erfolgreich bei Menschen angewendet werden, auch auf KI-Modelle übertragen kann“, betont Studienautor Max Pellert, Assistenzprofessor am Lehrstuhl für Data Science in den Wirtschafts- und Sozialwissenschaften der Universität Mannheim.
Einfluss auf Bewerbungsverfahren möglich
„Ähnlich wie wir bei Menschen Persönlichkeitseigenschaften, Wertorientierungen oder Moralvorstellungen durch Fragebogen messen, können wir LLMs Fragebogen beantworten lassen und ihre Antworten vergleichen“, so der Psychologe Clemens Lechner vom GESIS – Leibniz-Institut für Sozialwissenschaften in Mannheim, ebenfalls Autor der Studie. Dies mache es möglich, differenzierte Eigenschaftsprofile der Modelle zu erstellen. Die Forschenden konnten beispielsweise bestätigen, dass manche Modelle genderspezifische Vorurteile reproduzieren.
„Das kann weitreichende Auswirkungen auf die Gesellschaft haben“, so der Daten- und Kognitionswissenschaftler Pellert. Sprachmodelle werden beispielsweise zunehmend in Bewerbungsverfahren eingesetzt. Ist die Maschine voreingenommen, so fließt das auch in die Bewertung der Kandidierenden ein. „Die Modelle bekommen eine gesellschaftliche Relevanz über die Kontexte, in denen sie eingesetzt werden“, fasst er zusammen.
Die Studie wurde am Lehrstuhl von Prof. Dr. Markus Strohmaier in Zusammenarbeit der Abteilung Survey Design and Methodology von Prof. Dr. Beatrice Rammstedt und der Abteilung Computational Social Science von Prof. Dr. Claudia Wagner und Prof. Dr. Sebastian Stier durchgeführt.
Text: Yvonne Kaul / August 2024