Larissa Will, Universitätsbibliothek Mannheim: Automatisierte Texterkennung (OCR) (Juli 2024)

Was ist Ihr aktuelles Forschungsthema?
Im Rahmen des Kooperationsprojektes OCR-BW haben wir gemeinsam mit der UB Tübingen das Kompetenzzentrum OCR aufgebaut. Im Rahmen des Projektes haben wir uns intensiv mit automatischer Texterkennung befasst und Forschende, Archive, Bibliotheken und andere Institutionen in Baden-Württemberg und darüber hinaus bei der Anwendung von automatischer Texterkennungs- und Transkriptionssoftware beraten und unterstützt. Auch nach Projektende besteht das Kompetenzzentrum fort und ich bin seither mit der Beratung von Forschenden an der Universität Mannheim, aber auch Externen befasst. Neben der klassischen 1:1-Beratung bieten meine Kolleg*innen und ich auch eine offene Sprechstunde und Workshops an, außerdem sind wir regelmäßig auf Konferenzen und tauschen uns zu aktuellen Entwicklungen aus.
Für alle, die noch nicht so tief in das Thema Data Science eingestiegen sind: Wie würden Sie einem Kind erklären, woran Sie arbeiten?
Stell dir vor, du hast ein Bild von einem Buch oder einem Blatt Papier, auf dem Worte geschrieben stehen. Du möchtest diese Worte in deinem Computer haben, damit du sie zum Beispiel bearbeiten oder durchsuchen kannst. So könntest du ganz leicht deine Lieblingsstelle im Buch finden oder das Buch deinem Freund schicken. Aber der Computer kann das Bild nicht einfach so lesen wie du. Er sieht nur eine Sammlung von Punkten und Farben.
Hier kommt OCR ins Spiel. OCR steht für „Optical Character Recognition“ auf Deutsch „Optische Zeichenerkennung“. Es ist wie ein Zauberspruch, der dem Computer beibringt, die Punkte auf dem Bild zu verstehen und in Text umzuwandeln, den der Computer selbst auch lesen kann.
Alle sprechen über Data Science – wie würden Sie die Bedeutung des Themas für sich selbst in drei Worten beschreiben?
Neue Erkenntnisse ermöglichen
Welche Berührungspunkte mit Data Science hat Ihre Arbeit? Welche Methoden nutzen Sie bereits und welche wären zukünftig interessant für Sie?
In meiner Arbeit schaffe ich die Grundlage für die Generierung von Daten aus gedruckten oder handschriftlichen Texten. Die reine Erzeugung der Durchsuchbarkeit erzeugt zwar noch keine Forschungsdaten, da die Ergebnisse oft noch fehlerhaft sind, aber durch gezieltes sogenanntes werkspezifisches Nachtraining der neuronalen Netze kann das Ergebnis soweit verbessert werden, dass die Transkriptionen auf Forschungsdatenniveau sind. Diese eignen sich dann für verschiedene Analysen, Text Mining sowie digitale Editionen.
Wie hoch ist der Wert von Data Science für Ihre Arbeit? Wäre Ihre Forschung ohne Data Science überhaupt möglich?
Data Science ist für meine Arbeit von großer Bedeutung, da die niedrigschwellige Bereitstellung von Volltexten zwar bereits einen wichtigen Beitrag zur Verbesserung der Zugänglichkeit leistet, aber nur ein Ausgangspunkt ist. Die generierten Volltexte bieten die Grundlage für eine Vielzahl von Auswertungsmethoden wie linguistische und literarische Textanalyse sowie die Identifikation von Mustern. Vor allem in den Geisteswissenschaften bietet sich damit erstmals die Möglichkeit, große Textkorpora systematisch zu durchsuchen und zu analysieren. Dabei können Trends und Muster entdeckt werden, die vorher nicht aufgefallen wären, und es eröffnen sich völlig neue Fragestellungen an das Quellenmaterial. Dies ermöglicht auch interdisziplinäre Zusammenarbeit, z. B. zwischen der Geschichtswissenschaft und der Wirtschaftsinformatik.
Welche Entwicklungsmöglichkeiten sehen Sie für das Thema Data Science in Bezug auf Ihr Fachgebiet?
Ich erhoffe mir, dass die gezielte Datenextraktion aus Volltexten durch künstliche Intelligenz in Zukunft einfacher wird und man so ohne den bisherigen Aufwand aus unstrukturierten Daten in Textform eine strukturierte Datenausgabe z. B. in Tabellenform erhalten kann. Auch die Kombination von OCR mit Techniken des Natural Language Processing (NLP), um den Inhalt von Texten besser verstehen und analysieren zu können, ist eine sinnvolle Entwicklung.