Das Mannheimer Barockschloss und der Ehrenhof unter blauem Himmel.

KI-gestützte Datenerhebung: OCR, Audio- und Videotrans­kription für Forschung und Studium

Uhr

Thomas Schmidt, Jan Kamlah

Research Skills – Research Data Management Seminars

In diesem Vortrag wird die multimodale Datenerhebung mit KI-Tools vorgestellt: Wie lassen sich Bilder, Videos und Audiodateien automatisiert in unstrukturierte (oder strukturierte) Textinhalte verwandeln, die in einer nachgelagerten Forschungs­pipeline verwendet werden können?

Neben herkömmlichen OCR-Tools bieten multimodale Large Language Models wie GPT-5, Gemini 3 Pro oder Qwen 2.5 VL robuste Lösungen, um genaue Trans­kriptionen auch historischer Dokumente bereitzustellen. Video- und Audioinhalte, z. B. Interviews und Gruppen­diskussionen, aber auch alle Arten von aufgezeichneten Sprach­inhalten und Bewegtbildern, lassen sich mithilfe multimodaler LLM verarbeiten und können so die Datenerhebung unter­stützen.

Die Veranstaltung legt einen Fokus auf OCR (Texterkennung aus Bildern und Scans) sowie Speech-to-Text und Video-to-Text. Neben der praxisnahen Vorstellung verschiedener LLM werden für den Bereich der Audiotrans­kription die beiden DSGVO-konformen KI-Tools „noScribe“ und „aTrain“ vorgestellt, die in der qualitativen Sozialforschung und darüber hinaus weite Verbreitung finden.

Anmeldung im Studierenden­portal 

Anmeldung für externe Interessierte

Zurück