Succesvolle proef met computerherkenning handgeschreven brieven

De afgelopen maanden heeft het Utrechts Archief een succesvolle proef gedaan met HTR (handwritten text recognition), waarmee scans van handgeschreven brieven van kasteelvrouwe Margaretha Turnor door de computer in tekst zijn omgezet. Dit leverde spectaculaire resultaten op.

Waar het handmatig overtypen van oude archiefstukken voorheen uren kon duren, transcribeerde het programma Transkribus deze stukken in enkele seconden. Met deze innovatieve techniek kunnen in de toekomst mogelijk honderdduizenden handgeschreven bronnen uit de collectie online doorzoekbaar worden. Een deel van de ruim 31 kilometer archieven en collecties van Het Utrechts Archief bestaat uit handgeschreven teksten en van slechts een fractie daarvan is de inhoud bekend.

Met de techniek van het computerprogramma Transkribus, die met steun van de EU door de Universiteit van Innsbruck is ontwikkeld, werdem circa 1000 brieven van Margaretha Turnor (kasteelvrouwe van Amerongen)  uit de 17e eeuw omgezet in digitaal leesbare tekst. Deze transcripties werden verzorgd door een groep enthousiaste vrijwilligers.

De resultaten zijn boven verwachting, zo vertelt Joyce Pennings, onze vakspecialist metadatering: “Na een paar trainingsrondes zat de computer al op een foutmarge van slechts 2 procent.” Alhoewel de resultaten zeer veelbelovend zijn, kan de computer nog niet alle soorten teksten transcriberen: “De computer kan bijvoorbeeld nog geen ingewikkelde dateringen omzetten: het menselijk oog en verstand is nog wel nodig om er een transcriptie van te kunnen maken”, aldus Pennings.

Hoe werkt HTR?

Door snelle ontwikkelingen op het gebied van kunstmatige intelligentie zijn computers steeds beter in staat om te leren, beslissingen te nemen één specifieke taak uit te voeren. Dit geld ook voor het lezen van handgeschreven brieven. Het proces om de computer te laten leren werkt als volgt:

  • De computer krijgt een verzameling brieven met een set bijbehorende handgemaakte transcripties en gaat hiermee ‘oefenen’. Zo ontstaat er een model van één bepaald handschrift;
  • Het programma controleert zichzelf steeds door het geproduceerde resultaat te vergelijken met de handgemaakte transcripties;
  • Zodra de foutmarge acceptabel is en het model nagenoeg goed werkt, worden alle scans van dit handschrift ingevoerd. De transcripties die de computer maakt, zijn vrij eenvoudig te exporteren en goed bruikbaar om online doorzoekbaar te maken.

Over Transkribus

Het Utrechts Archief is sinds begin juli aangesloten bij de READ-coöperatie (Recognition and Enrichment of Archival Documents) als lid van de kerngroep samen met verschillende archieven, bibliotheken en universiteiten uit het buitenland betrokken bij de doorontwikkeling van Transkribus. Zo kunnen wij in samenwerking met de andere deelnemers Transkribus verder ontwikkelen en hebben we de mogelijkheid om mee te denken en mee te beslissen. De getranscribeerde brieven van Turnor én het leerproces met Transkribus dat we doormaakten, zullen vanaf december te zien zijn in een tentoonstelling.

Anderen lazen ook

Laat een bericht achter