KI-gestützte Datenerhebung: OCR, Audio- und Videotranskription für Forschung und Studium
In diesem Vortrag wird die multimodale Datenerhebung mit KI-Tools vorgestellt: Wie lassen sich Bilder, Videos und Audiodateien automatisiert in unstrukturierte (oder strukturierte) Textinhalte verwandeln, die in einer nachgelagerten Forschungspipeline verwendet werden können?
Neben herkömmlichen OCR-Tools bieten multimodale Large Language Models wie GPT-5, Gemini 3 Pro oder Qwen 2.5 VL robuste Lösungen, um genaue Transkriptionen auch historischer Dokumente bereitzustellen. Video- und Audioinhalte, z. B. Interviews und Gruppendiskussionen, aber auch alle Arten von aufgezeichneten Sprachinhalten und Bewegtbildern, lassen sich mithilfe multimodaler LLM verarbeiten und können so die Datenerhebung unterstützen.
Die Veranstaltung legt einen Fokus auf OCR (Texterkennung aus Bildern und Scans) sowie Speech-to-Text und Video-to-Text. Neben der praxisnahen Vorstellung verschiedener LLM werden für den Bereich der Audiotranskription die beiden DSGVO-konformen KI-Tools „noScribe“ und „aTrain“ vorgestellt, die in der qualitativen Sozialforschung und darüber hinaus weite Verbreitung finden.
