KI-gestützte Datenerhebung: OCR, Audio- und Videotranskription für Forschung und Studium

10.3.2026

14:00 – 15:00 Uhr

Thomas Schmidt, Jan Kamlah

Research Skills – Research Data Management Seminars

In diesem Vortrag wird die multimodale Datenerhebung mit KI-Tools vorgestellt: Wie lassen sich Bilder, Videos und Audiodateien automatisiert in unstrukturierte (oder strukturierte) Textinhalte verwandeln, die in einer nachgelagerten Forschungspipeline verwendet werden können?

Neben herkömmlichen OCR-Tools bieten multimodale Large Language Models wie GPT-5, Gemini 3 Pro oder Qwen 2.5 VL robuste Lösungen, um genaue Transkriptionen auch historischer Dokumente bereitzustellen. Video- und Audioinhalte, z. B. Interviews und Gruppendiskussionen, aber auch alle Arten von aufgezeichneten Sprachinhalten und Bewegtbildern, lassen sich mithilfe multimodaler LLM verarbeiten und können so die Datenerhebung unterstützen.

Die Veranstaltung legt einen Fokus auf OCR (Texterkennung aus Bildern und Scans) sowie Speech-to-Text und Video-to-Text. Neben der praxisnahen Vorstellung verschiedener LLM werden für den Bereich der Audiotranskription die beiden DSGVO-konformen KI-Tools „noScribe“ und „aTrain“ vorgestellt, die in der qualitativen Sozialforschung und darüber hinaus weite Verbreitung finden.

Anmeldung im Studierendenportal

Anmeldung für externe Interessierte

Zurück