Terug naar het papieren archief!

De voordelen van een papieren archief liggen met name in de inzichtelijkheid qua opslagkosten.

Door Redactie Op 30-03-2017

“Terug naar het papieren archief”, dat lijkt nogal een vreemde uitspraak voor een uitgave die gaat over Enterprise Information Management en altijd vol staat met de successen in digitalisering. De digitalisering van documenten, data en gegevens heeft de afgelopen jaren dan ook razendsnel om ons heen gegrepen. We gebruiken Google en Wikipedia praktisch dagelijks voor het zoeken naar informatie over vakanties, boodschappen, oud-klasgenoten of voor het werk.

Wat er achter Google of Wikipedia aan techniek zit om de antwoorden te genereren, is voor velen onbekend. In de eigen organisatie net zo. Alleen IT weet van de kosten, de problemen met beheer en de ingewikkelde ontsluiting van de berg aan data. Met papier kon iedereen wel zien hoeveel strekkende meter er was, hoelang het duurde om een document terug te vinden en de problematiek van geregeld opruimen. Toch wel ideaal, of niet?

Door Oscar Dubbeldam, Migrato

De voordelen van een papieren archief liggen meer in de inzichtelijkheid wat betreft de opslagkosten. Er is een vast bedrag per strekkende meter. Op zich niet eens zo veel. In Nederland liggen er daarom nog intern en vooral ook extern vele honderden kilometers papier opgeslagen. Het waarom van het opslaan is helaas niet meer altijd duidelijk. De verantwoordelijkheid voor het verwijderen wil niemand nemen. Het blijft staan waar het staat, maar het gebruik ervan is minimaal.

Digitale databerg

Met de komst van automatisering en digitalisering is er de opslag van digitale content. Al snel werd duidelijk dat het ongecontroleerd opslaan van ongestructureerde content (de correspondentie) tot ongewenste situaties leidde in het weer kunnen terugvinden en gebruiken. Daarvoor werd begin jaren negentig het Documentaire Informatie Systeem, later het Document Management Systeem bedacht. De naam evolueerde vervolgens naar Enterprise Content Management en Enterprise Information Management. Wat daarmee in de afgelopen 25 jaar wel is ontstaan, is de digitale data berg. Het elektronisch archief puilt uit met digitale bestanden, waarvan we vandaag de dag niet meer weten wat het is, waarom het bewaard is en wat de relevantie is.

Die problematiek is echter vele malen groter in een digitaal archief dan in een papieren archief. De omvang in content is vele malen groter, de folderstructuur die 20 jaar geleden relevant en indicatief was is volkomen achterhaald, bepaalde bestandtypen kunnen niet eens meer gelezen worden en de hoeveelheid dubbele of bijna gelijke bestanden maakt het helemaal onoverzichtelijk. We hebben geen idee meer wat er staat en hoe we daar weer iets gestructureerds van moeten maken.

Meten is weten

De hoeveelheid digitale documenten die is opgeslagen, is moeilijk te berekenen. De statistiek leert wel dat het aantal digitale documenten veel groter is dan het aantal fysieke documenten dat in de archieven ligt opgeslagen. De opslag van een digitaal document is ook te eenvoudig. Met bestand en opslaan staat het document praktisch voor de eeuwigheid vastgelegd op de netwerkschijf. Als auteur weten we dat document meestal nog wel terug te vinden. De projectcollega’s kunnen er in geval van een beetje ordentelijke folderstructuur ook nog wel bij. Het wordt lastig als het project is afgelopen, de medewerkers niet meer werkzaam zijn bij de organisatie of als er via een fusie een enorme hoeveelheid digitaal materiaal wordt overgedragen.

Vanuit IT wordt er dan getracht de boel op te ruimen. Dat resulteert in een actie, waarbij alle digitale bestanden met een aanmaakdatum van een bepaald jaar of ouder worden verwijderd. Enerzijds makkelijk, maar anderzijds kan het desastreuze gevolgen hebben, wanneer er belangrijke gegevens worden verwijderd.

De traditionele tools van IT voor het beheren van netwerkschijven leveren alleen de statistische informatie, maar kunnen niet de inhoud van het document beoordelen op relevantie, archiefwaardigheid en context. Een volledig inzicht in de digitale databerg is daarvoor noodzakelijk. De digitale data-analyse moet minimaal de statistische informatie kunnen opleveren, maar daarnaast ook inzicht kunnen geven in de documenttyperingen (classificatie), relevantie en de mogelijkheden voor opruimen en herstructurering. Na het meten en weten kan dan voldaan worden aan de externe eisen (wetgeving) en de interne mogelijkheden (ondersteuning medewerkers).

Wetgeving legt strikte eisen op

Volgens de archiefverordening moeten documenten volgens de regels worden bewaard of vernietigd. Bewaren is makkelijk, maar vernietigen wat vernietigd moet worden, is lastiger.

De overheid ondersteunt en promoot de digitalisering via diverse initiatieven. Het gemeentehuis hoef je tegenwoordig niet meer te bezoeken, maar kun je inmiddels voor de meeste zaken digitaal benaderen.

Digitaal zakendoen wordt steeds makkelijker. Voor iedereen is er binnenkort een digitale identiteit beschikbaar. Het programma Digitaal 2017 verwacht dat iedereen in 2017 zaken online kan regelen. De andere kant van de medaille is wel dat de overheid via de wetgeving dan volledig inzicht wil hebben in de digitaal opgeslagen documenten.

De privacywetgeving is sterk bepalend voor wat wel en wat niet mag worden bewaard van en over medewerkers, sollicitanten en klanten. Daarnaast is er nog de archiefwet, de belastingwet, etc. etc. De voorbeelden zijn al veelvuldig waarbij organisaties ‘op de vingers zijn getikt’ of een boete hebben gehad voor het niet kunnen tonen van de juiste digitale documenten bij navraag of controle.

De archiefverordening maakt het noodzakelijk dat documenten volgens de regels worden bewaard of vernietigd. Bewaren is makkelijk, maar vernietigen wat vernietigd moet worden, is lastiger. Hoe weten we zeker dat een document het document is dat vernietigd moet worden? Een handmatige controle ligt voor de hand, maar is praktisch onmogelijk gezien de hoeveelheden.

Medio 2017 moeten organisaties in de financiële sector vanuit de Nederlandse Bank hun digitale archief op orde hebben: uiteenlopend van een organisatiebreed classificatieschema tot aan gedetailleerd inzicht in de eigen digitale archieven aan toe. Dat maakt dat aan de ene kant alles digitaal creëren en houden erg besparend kan zijn in het zakendoen, maar dat het complexer, en dus duurder, wordt om de digitale documenten, data en gegevens goed te beheren. Beheren in de zin van exact weten welk document waar staat opgeslagen, hoe lang al, hoe lang nog en wat de inhoud, context en het gebruik is. De classificatie van documenten wordt dan cruciaal.

Classificatiemethodieken

De resultaten van deze nieuwe classificatietechnieken benaderen inmiddels de menselijke accuratesse.

Het classificeren van documenten is een lastig karwei. Als mens kijken we eerst naar de opmaak van een document, is het een brief of formulier, inkomend of uitgaand, formeel of informeel. Dan volgt al snel de scan naar een titel, een indicatie naar onderwerp of ‘betreft’ en de tekst van de eerste paragrafen. Zo kan door een mens in gemiddeld acht seconden een document worden herkend en toegekend aan een documenttype.

De menselijke interpretatie is lastig te vatten in een geautomatiseerd proces. De basis voor automatische classificatie is de tekstherkenning via Optical (of Intelligent) Character Recognition. Op basis van zwarte pixels (of dots) ten opzichte van een witte achtergrond wordt getracht een vorm te herkennen die overeenkomt met een letter, cijfer of ander teken. Voor documenten die met een laserprinter zijn geproduceerd gaat dat vrijwel altijd goed, voor documenten die nog stammen uit de 60’er of 70’er jaren en gemaakt zijn op een typmachine wordt het al lastiger. Iets wat we dan als mens wel kunnen interpreteren als een woord, wordt voor de machine onleesbaar.

De meest gebruikte automatische classificatiemethodiek is die van een representatieve set documenten. Door het verwerken van soms 50 tot 150 van dergelijke voorbeelddocumenten wordt een index opgebouwd van de woorden en woordcombinaties die het document karakteriseren. Daarna wordt elk nieuw gelezen document tegen de index aangehouden en vergeleken. Bij een voldoende hoge score wordt het document dan geclassificeerd. De nadelen van deze methodiek zijn echter de enorm hoge inspanningen die nodig zijn om voor elk documenttype zo’n representatieve documentset samen te stellen en dat bij wijzigingen in het document(soort) de toepassing zijn betrouwbaarheid verliest.

De nieuwe technieken in geautomatiseerde classificatie vertrouwen dan ook niet meer alleen op een referentieset, maar proberen meer de menselijke interpretatie na te bootsen. Deze nieuwe technieken kijken ook naar de vorm en opmaak van het document. Daarnaast wordt het aantal pagina’s, de hoeveelheid (herkende) tekst en tekstlengtes (zinnen en paragrafen) meegenomen. Als laatste belangrijke nieuwe techniek wordt ook Natural Language Processing gebruikt. Wat zijn de eerste paragrafen aan tekst? Wat is het woordgebruik daarin? Wat zijn sleutelwoorden daarin die bepalend zijn en in welke context worden ze gebruikt? Door daarbij een ‘fuzzy search’-techniek te gebruiken op de tekst wordt zelfs de meest onduidelijke brief uit 1963 nog herkenbaar voor automatische classificatie.

De resultaten van deze nieuwe classificatietechnieken benaderen inmiddels de menselijke accuratesse. Ook die maken weleens een foutje, maar gemiddeld is het wel 95 procent correct. Het grote probleem van de menselijke classificatie is echter de tijd en de daaraan gerelateerde kosten.

Wat is er mogelijk?

Volledig geautomatiseerde classificatie zonder enige vorm van voorbereiding of vergelijkend materiaal is helaas nog niet mogelijk. Enige vorm van configuratie en documenttyperingen blijft voorlopig nog wel een vereiste. Het grote verschil zit hem wel in de benodigde voorbereidingstijd en het resultaat. Die kan sterk variëren per product. Per documenttype kan de voorbereidende tijd in het opzetten van een goedwerkende classificatie variëren tussen enkele dagen tot aan één uur.

De privacywetgeving is sterk bepalend voor wat wel en wat niet mag worden bewaard van en over medewerkers, sollicitanten en klanten.

Automatische classificatie op basis van referentiesets en een index is enerzijds makkelijk omdat het alleen een voorbereiding vraag in het verzamelen van voorbeelddocumenten. De techniek doet daarna de rest. De herkenningspercentages liggen dan vaak tussen de 50 en 80 procent. Bij het doorlopen van een oud image archief of digitale documenten van een netwerkshare ligt het resultaat dan meer bij de 50 procent of nog lager.

Automatische classificatie op basis van de documentkenmerken zoals vorm, layout, titels, tekstlengtes, woordgebruik, context en stijl vergen een iets specifiekere voorbereiding. Per documenttype moeten deze kenmerken dan worden geconfigureerd. Het voordeel van deze methodiek is wel dat de herkenning van documenten, ongeacht oorsprong of ouderdom, dan de 90 procent benadert of zelfs overtreft. Dat maakt de business case voor een investering in de nieuwe classificatietechnieken wel erg makkelijk.

Over Migrato

Migrato is de specialist voor digitale content analyse, -optimalisatie, -classificatie en -migratie. Migrato heeft op basis van vele jaren, opgedaan bij implementaties van scanning en document management projecten, de Migrato Intelligent Content Classifier (MICC) ontwikkeld. Met deze toepassing kunnen grote hoeveelheden ongestructureerde digitale content snel en accuraat worden geclassificeerd, de relevante metadata geëxtraheerd en daar waar nodig geconverteerd. De resultaten tot nu toe laten zien dat minimaal 90 procent van de ongestructureerde content kan worden geclassificeerd. Het classificatieschema wordt daarbij voorgesteld op basis van de analyseresultaten. Een traject vraagt daardoor minimale inspanning van de organisatie en zijn medewerkers, maar levert een maximaal rendement.

Dit artikel is eerder verschenen in VIP Magazine 6 2016.

Open artikel