Das Mannheimer Barockschloss und der Ehrenhof unter blauem Himmel.

Larissa Will, Universitäts­bibliothek Mannheim: Automatisierte Texterkennung (OCR) (Juli 2024)

Larissa Will ist Referentin für Forschungs­daten­management und Digitalisierung im Forschungs­datenzentrum der Universitäts­bibliothek. Dort ist sie für die Beratung der Forschenden im Bereich (Digital) Humanities im Hinblick auf Forschungs­daten zuständig. Zu ihren Schwerpunkten gehören automatisierte Texterkennung von historischen Handschriften und Drucken sowie der Erstellung und Betreuung von digitalen Ausstellungen. Larissa Will kam 2021 als Mitarbeiterin im Projekt OCR-BW an die Universitäts­bibliothek und studierte zuvor im Bachelor und Master Kultur und Wirtschaft mit den FächernGeschichte und BWL an der Universität Mannheim.

Was ist Ihr aktuelles Forschungs­thema?                                          

Im Rahmen des Kooperations­projektes OCR-BW haben wir gemeinsam mit der UB Tübingen das Kompetenzzentrum OCR aufgebaut. Im Rahmen des Projektes haben wir uns intensiv mit automatischer Texterkennung befasst und Forschende, Archive, Bibliotheken und andere Institutionen in Baden-Württemberg und darüber hinaus bei der Anwendung von automatischer Texterkennungs- und Trans­kriptions­software beraten und unter­stützt. Auch nach Projektende besteht das Kompetenzzentrum fort und ich bin seither mit der Beratung von Forschenden an der Universität Mannheim, aber auch Externen befasst. Neben der klassischen 1:1-Beratung bieten meine Kolleg*innen und ich auch eine offene Sprechstunde und Workshops an, außerdem sind wir regelmäßig auf Konferenzen und tauschen uns zu aktuellen Entwicklungen aus.

Für alle, die noch nicht so tief in das Thema Data Science eingestiegen sind: Wie würden Sie einem Kind erklären, woran Sie arbeiten?

Stell dir vor, du hast ein Bild von einem Buch oder einem Blatt Papier, auf dem Worte geschrieben stehen. Du möchtest diese Worte in deinem Computer haben, damit du sie zum Beispiel bearbeiten oder durchsuchen kannst. So könntest du ganz leicht deine Lieblingsstelle im Buch finden oder das Buch deinem Freund schicken. Aber der Computer kann das Bild nicht einfach so lesen wie du. Er sieht nur eine Sammlung von Punkten und Farben.

Hier kommt OCR ins Spiel. OCR steht für „Optical Character Recognition“ auf Deutsch „Optische Zeichenerkennung“. Es ist wie ein Zauberspruch, der dem Computer beibringt, die Punkte auf dem Bild zu verstehen und in Text umzuwandeln, den der Computer selbst auch lesen kann.

Alle sprechen über Data Science – wie würden Sie die Bedeutung des Themas für sich selbst in drei Worten beschreiben?

Neue Er­kenntnisse ermöglichen

Welche Berührungs­punkte mit Data Science hat Ihre Arbeit? Welche Methoden nutzen Sie bereits und welche wären zukünftig interessant für Sie?

In meiner Arbeit schaffe ich die Grundlage für die Generierung von Daten aus gedruckten oder handschriftlichen Texten. Die reine Erzeugung der Durchsuchbarkeit erzeugt zwar noch keine Forschungs­daten, da die Ergebnisse oft noch fehlerhaft sind, aber durch gezieltes sogenanntes werk­spezifisches Nachtraining der neuronalen Netze kann das Ergebnis soweit verbessert werden, dass die Trans­kriptionen auf Forschungs­datenniveau sind. Diese eignen sich dann für verschiedene Analysen, Text Mining sowie digitale Editionen.

Wie hoch ist der Wert von Data Science für Ihre Arbeit? Wäre Ihre Forschung ohne Data Science überhaupt möglich?

Data Science ist für meine Arbeit von großer Bedeutung, da die niedrigschwellige Bereitstellung von Volltexten zwar bereits einen wichtigen Beitrag zur Verbesserung der Zugänglichkeit leistet, aber nur ein Ausgangspunkt ist. Die generierten Volltexte bieten die Grundlage für eine Vielzahl von Auswertungs­methoden wie linguistische und literarische Textanalyse sowie die Identifikation von Mustern. Vor allem in den Geistes­wissenschaften bietet sich damit erstmals die Möglichkeit, große Textkorpora systematisch zu durchsuchen und zu analysieren. Dabei können Trends und Muster entdeckt werden, die vorher nicht aufgefallen wären, und es eröffnen sich völlig neue Fragestellungen an das Quellenmaterial. Dies ermöglicht auch interdisziplinäre Zusammenarbeit, z. B. zwischen der Geschichts­wissenschaft und der Wirtschafts­informatik.

Welche Entwicklungs­möglichkeiten sehen Sie für das Thema Data Science in Bezug auf Ihr Fach­gebiet?

Ich erhoffe mir, dass die gezielte Datenextraktion aus Volltexten durch künstliche Intelligenz in Zukunft einfacher wird und man so ohne den bisherigen Aufwand aus unstrukturierten Daten in Textform eine strukturierte Datenausgabe z. B. in Tabellenform erhalten kann. Auch die Kombination von OCR mit Techniken des Natural Language Processing (NLP), um den Inhalt von Texten besser verstehen und analysieren zu können, ist eine sinnvolle Entwicklung.

Zurück