Humboldt-Universität zu Berlin | Institut für Bibliotheks- und Informationswissenschaft

DABI - Datenbank Deutsches Bibliothekswesen

Bibliografische Datenbank zum Handbuch "Das Bibliothekswesen der Bundesrepublik Deutschland"
Suche | Recherchehinweise | Über die Datenbank | Über das Handbuch | Kontakt | Statistik



Vollanzeige des Datensatzes 22433: Automatische Qualitätsverbesserung von Fraktur-Volltexten aus der Retrodigitalisierung am Beispiel der Zeitschrift Die Grenzboten

Artikel-ID 22433
Titel Automatische Qualitätsverbesserung von Fraktur-Volltexten aus der Retrodigitalisierung am Beispiel der Zeitschrift Die Grenzboten
Untertitel
Autoren Blenkle, Martin; Schünemann, Maik; Bultmann, Jan Paul; Nölte, Manfred
Zeitschrift OBIB - Das offene Bibliotheksjournal
Jahr 2016
Band 3
Heft 1
Anfangsseite 32
Endseite 55
URL Volltext
Abstract Den Geisteswissenschaften stehen nach und nach mehr computerbasierte Werkzeuge und Infrastrukturen der Digital Humanities zur Verfügung, für die die Existenz und weitere Erstellung von Volltext mit guter Qualität eine unabdingbare Voraussetzung ist. Der Bedarf nach qualitativ hochwertigem Volltext aus Retrodigitalisierungsprojekten steigt daher ständig an. Der zu Frakturschrift berechnete OCR-Volltext hat eine deutlich schlechtere Qualität als von Antiqua-Schrift berechneter. Daher ist für das wissenschaftliche Arbeiten unkorrigierter und unstrukturierter OCR-Volltext von Frakturschrift häufig wertlos. Da eine bedarfsgerechte Erzeugung von Volltext in der Größenordnung von mehreren Millionen Seiten in Bezug auf Aufwand und Kosten effizient sein sollte, wird hier eine möglichst weitgehende Automatisierung der Nachbearbeitung von OCR-Volltext vorgestellt. An der Staats- und Universitätsbibliothek Bremen (SuUB) wurde dazu ein Ansatz entwickelt, der sich durch Einfachheit auszeichnet: Eine Liste historischer bzw. dialekt- oder fachspezifischer Wortformen - eine der Voraussetzungen dieses Ansatzes - ist verhältnismäßig leicht erstellbar. Ein effizienter Algorithmus leistet den Abgleich von hier ca. 1,7 Millionen Wortformen gegen bei der Zeitschrift Die Grenzboten knapp 80 Millionen enthaltenen Wörtern und lässt sich auf verständliche und nachvollziehbare Art und Weise parametrisieren, d.h. auf die spezifischen Eigenschaften des jeweiligen Volltextprojektes einstellen. Die erreichbaren Ergebnisse sind stark abhängig von der Ausgangsqualität des Volltextes sowie von dem Umfang und der Qualität der Liste der historischen Wortformen und dem verwendeten Fehlermodell. So können beispielsweise bestimmte Fehler nur mit einem den Kontext berücksichtigenden Ansatz korrigiert werden. Weiterhin wurde zusammen mit der Firma ProjectComputing mit Sitz in Canberra, Australien, der cloud service overProof1 um die Funktionalität der Nachkorrektur deutschsprachiger Frakturschrift erweitert. In einem Ausblick werden Bedarfe und Möglichkeiten für die Zukunft aufgezeigt.
Schlagwörter Retrodigitalisierung; Optical Character Recognition (OCR); Digitalisierung; Zeitschrift; Geisteswissenschaften
Klassen


Datensatz im BibTeX-Format ausgeben

Datensatz als Zitation nach DIN 1505 ausgeben.

Angaben zur Zeitschrift: OBIB - Das offene Bibliotheksjournal


Sie können mit den Schlagwörtern, Autoren und Klassen dieses Artikels weiterrecherchieren:

Schlagwörter:
Retrodigitalisierung
Optical Character Recognition (OCR)
Digitalisierung
Zeitschrift
Geisteswissenschaften

Autoren:
Blenkle, Martin
Schünemann, Maik
Bultmann, Jan Paul
Nölte, Manfred

Klassen: