Handmatige versus auto-classificatie

Classificatie wordt vaak uitgevoerd door mensen in de lijnorganisatie en dat gaat niet altijd even goed.

Door Redactie Op 20-04-2016

In januari 2016 berichtte het tv-programma Meldpunt dat 5.600 medische dossiers van Nederlandse patiënten door Belgische gedetineerden klaar gemaakt werden voor digitalisering, ofwel ontdaan van nietjes en paperclips. Hoewel de gedetineerden volgens de betrokken leverancier wel een geheimhoudingsverklaring hadden getekend, roept het scanklaar maken van documenten door deze groep natuurlijk wel vraagtekens op.

Voor organisaties die bezig zijn met het digitaliseren of archiveren van documenten en dossiers is de scanstraat slechts het startpunt van een complex proces. Niet alleen aan het begin van de scanstraat is handwerk nog gemeengoed: ook in de rest van het proces zijn verbeteringen denkbaar. Na de eerste stap, het scannen van de documenten, wordt nu vaak handmatig classificatie en metadata aan documenten toegevoegd.

Inconsistente classificatie

Of het nu gebeurt aan het einde van de scanstraat of bij content verrijking ten behoeve van een migratie van fileshares naar een nieuw ECM-omgeving (bv. SharePoint), het handmatig classificeren van documenten is niet alleen tijdrovend, het is bovendien niet consistent. Hoewel documentalisten en informatiespecialisten zeer kundig zijn, is het lastig om als team consistent en eenduidig te classificeren zelf wanneer een standaard template wordt gevolgd. Geef een set van documenten aan verschillende specialisten en er zit discrepantie in de manier waarop zij de documenten classificeren.

Kwaliteit van de classificatie

Classificatie is trouwens ook lang niet altijd een taak van specialisten, maar wordt vaak gewoon uitgevoerd door mensen in de lijnorganisatie op het moment dat zij een document opvoeren. Vaak zien zij het belang van goede classificatie niet en ontstaan er problemen met de kwaliteit van de classificatie (geen training genoten, dus inconsistente toekenning van metadata).

Dit probleem bestaat natuurlijk al veel langer, maar het probleem wordt steeds nijpender. Ten eerste omdat de hoeveelheid documenten en informatie significant toeneemt en ten tweede omdat er steeds grotere risico’s en kosten zijn wanneer blijkt dat de documenthuishouding niet voldoet aan wet- en regelgeving.

Geautomatiseerd classificeren

Een bewezen methode om documenten te classificeren is met behulp van intelligente tooling. Uiteraard bieden meerdere leveranciers oplossingen voor automatische classificatie. De meeste oplossingen, echter, classificeren op basis van de vorm van documenten en aangetroffen trefwoorden. Er zijn echter ook oplossingen die een stap verder gaan en labels kunnen toekennen op basis van de grammatica, spelling, woordkeuze en herhaling die in het document worden gebruikt.

And the winner is…

Handmatige classificatie is wel subjectief en daardoor inconsistent, maar niet per definitie slechter of onnauwkeuriger dan automatische classificatie. Anno 2016 zijn er betere methoden om uw documenthuishouding te classificeren dan het met de hand te doen, met dezelfde of misschien wel hogere nauwkeurigheid en met gegarandeerd een enorme verbetering qua productiesnelheid.