vrijdag 14 december 2012

Dood aan pdf

Wat is dat toch met pdf(/a) en de Nederlandse div-ers en archivarissen? Zodra het over digitaal archiveren gaat, moet alles maar in het "paper document format" gepropt worden.
Zie bijvoorbeeld de discussie op LinkedIn over het bewaren van agenda's, waar iemand na een paar dagen het ei van Columbus heeft gevonden:
Ja, dat is een goede. Je kunt de agenda-items toch ook omzetten in PDF-A bijvoorbeeld en dan in je DMS zetten.
En hier is een leverancier van een dms er trots op dat hij zelfs xml- en txt-bestanden geautomatiseerd kan converteren naar pdf/a-1a of pdf/a-1b, de klant mag kiezen. Op! Op! Op!

Maar Ingmar, pdf/a is toch het ultieme archiveringsformaat. Zijn die argumenten voor het gebruik ervan dan niet legitiem?

Ach, laten we ze eens bekijken...

1. Pdf-bestanden zijn niet muteerbaar.
Wie dat als ultieme argument gebruikt, heeft niets begrepen van (digitale) archivering. Ieder digitaal bestand is muteerbaar en zeker pdf-bestanden. Zoek voor de aardigheid met Google even op "free pdf editor" en sta versteld van het aanbod. De betrouwbaarheid en integriteit van een digitaal archiefstuk zit niet in de verschijningsvorm (het formaat) maar in de beheeromgeving. Daar moet ervoor gezorgd worden dat de archiefstukken niet ongeautoriseerd en ongemerkt gewijzigd kunnen worden. En dat doe je met behulp van toegangsrechten en, misschien nog wel belangrijker, metagegevens: checksums, "event history" en logfiles. Archiveren draait om metagegevens, metagegevens en nog eens metagegevens.
Trouwens, papieren archiefstukken kunnen toch ook heel simpel gemanipuleerd worden?

2. Pdf-bestanden kunnen op iedere computer geopend worden.
Uh, ja, zolang ik een pdf-reader geïnstalleerd heb. Maar dat geldt natuurlijk voor ieder digitaal bestand: ik kan het openen en gebruiken als ik de juiste software heb.
Heb je trouwens al eens van iemand gehoord dat hij je e-mail niet kon openen? Het hele idee van e-mail is toch juist dat het niet uitmaakt met welke programma's verzender en ontvanger werken. Dat hoeft niet hetzelfde te zijn, het hoeft niet eens op hetzelfde besturingssysteem te draaien. Dus waarom zou je e-mail dan omzetten in pdf?

3. Pdf-bestanden zien er op iedere computer hetzelfde uit.
Ja, maar is dat belangrijk? Een e-mailbericht of afspraak ziet er in iedere client anders uit en, nog belangrijker, ze zien er altijd anders uit dan de pdf-afdruk.

4. Pdf-a is een open standaard.
Ja, net als txt, xml, sgml, odf, tiff, ascii, xhtml, wav en nog een heel rijtje afkortingen en acroniemen. En weet je, die standaarden zijn allemaal bedoeld om specifieke informatie zo goed mogelijk vast te leggen om die op specifieke manieren te kunnen gebruiken.
Wat heb ik nou aan een website in pdf, helemaal plat, zonder hyperlinks, zonder animaties, zonder interactie?
Wat heb ik aan een e-mailbericht waarin ik niet eens meer kan zien wanneer en vanaf welk adres het bericht verstuurd is en waarvan ik de bijlagen niet kan raadplegen?
Wat heb ik aan een digitale afdruk van een ruimtelijk plan (of een jaarverslag) als ik de informatie daarna helemaal niet meer kan zien?
Wat heb ik aan een excel-sheet dat moet passen binnen de fysieke begrenzing van A4 of A3, wanneer ik een werkblad heb met 78 kolommen en 612 rijen? Heb je zoiets al eens in pdf bekeken? En dan heb ik het nog niet eens over formules, draaitabellen of grafieken.
Al die finesses, al dat gebruiksgemak, al die inherente functionaliteiten worden allemaal overboord gekiept, omdat we zo graag iets in het paper document formaat willen hebben.

De volautomatische documentverkleiner
De analogie gaat misschien niet helemaal op, maar weet je waar die pdf/a-fetish een beetje op lijkt?
Stel je nu eens voor dat de leveranciers van paternosterkasten of dosiermappen zeiden: "Wij hebben prima-de-luxe kasten, maar er passen geen documenten in die groter zijn dan 190 bij 275 mm."
En dat je dan als overheid zegt: "Ah joh, dat geeft niet. De meeste documenten die wij ontvangen en verzenden zijn dan wel op A4-formaat, maar die hebben toch aan iedere kant een marge van 10 mm. Geef ons die kast maar, wij snijden wel bij ieder archiefstuk aan alle kanten een stukje eraf."
Daarna zeg je tegen die leverancier: "Ik krijg ook wel eens documenten die groter zijn dan A4, bijvoorbeeld een bouwtekening, die ik niet kan bijsnijden tot 190 bij 275 mm. Kun jij me geen kopieerapparaat leveren dat al die grote documenten automatisch verkleint, zodat ze in die prachtige kast van jouw passen?"
Natuurlijk kan hij dat, kost een paar centen en die betaal je dan ook.
En dan wordt het nog gekker, want als die super-de-luxe paternosterkast vervangen moet worden, moet die natuurlijk wel aansluiten op de bestaande infrastructuur. Hij moet dus aansluiten op die hypermoderne volautomatische documentverkleiner die je pas ook nog hebt aangeschaft!

Waar het bij archiveren vooral om draait zijn de significant properties: welke eigenschappen van een archiefstuk zijn cruciaal om het te kunnen blijven gebruiken en interpreteren. Dit zijn de artikelen 17, 21 en 22 uit de Archiefregeling.
 En het spijt me dames en heren, maar pdf is en blijft een print-formaat, waarmee je bij lange na niet alle relevante eigenschappen van een archiefstuk kunt bewaren.

Als je een papieren document scant, dan mag je dat best in pdf opslaan, maar voor bijna alle "born digital" archiefstukken zijn andere, betere formaten beschikbaar.
Passen die bestanden niet in je paternosterkast? Dan moet je misschien eens goed nadenken of je die kast nog wel wil gebruiken.

Gerelateerd
Pdf-a wat heb je daar aan?
Wat digitaal is, moet niet analoog beoordeeld worden.
Over agenda's als archiefstukken #sod12
Jeff Rothenberg  - Digital preservation in perspective
O jee, een gemanipuleerd archiefstuk

19 opmerkingen:

  1. Mooie blog Ingmar ! Helemaal mee eens, want het gaat inderdaad om de essentiële kenmerken (authenticiteit zoals we dat netjes noemen) van records. Als dat met pdf gewaarborgd wordt is dat best, maar pdf mag niet het uitgangspunt zijn, zoals nu door velen wordt gedaan.....

    BeantwoordenVerwijderen
  2. Goed stuk Ingmar! Wat natuurlijk ontbreekt is dat de kastenleverancier aan zijn verkoopargumenten toevoegt "dat het trouwens ook verplicht moet van de Archiefwet." En teslotte dat ze NEN2082 gecertificeerd zijn...
    Ik denk dat van lveranciers in deze niet alles verwacht kan worden, ze willen verkopen en proberen te begrijpen wat in dit geval de archiefgemeenschap voorschrijft. En ik vind dat vaak niet zo helder als zou moeten. Waar de wet weer wel duidelijk over is, is het behoud van het gedrag van het document, wat zich bij voorbaat niet verdraagt met het pdf_en van documenten met verwijdering van het origineel.
    Jouw hameren op metadata en functionaliteit voor behoud zijn me uit het hart gegrepen. En je stukje lijkt me ook voor leveranciers informatief.
    Blijf bloggen alsjeblieft.
    Eric Burger

    BeantwoordenVerwijderen
    Reacties
    1. Dank je Eric
      Ik ben het met je eens dat de leveranciers niet alleen verantwoordelijk zijn. Zij leveren (deels) wat gevraagd wordt. En pdf-conversie wordt gevraagd, dus leveren ze dat.

      Verwijderen
  3. Ik deel je mening dat PDF een bijzonder ongeschikt formaat is voor sommige documenten, zoals spreadsheets, websites, etc.

    Bij het argument "PDF kan op iedere computer geopend worden" ga je volgens mij voorbij aan het onderliggende argument. Natuurlijk heb je gelijk dat je dan een PDF-viewer nodig hebt. Maar volgens mij is de ultieme motivatie dat als alle (of zoveel mogelijk) documenten naar PDF worden geconverteerd, je *alleen* een PDF-viewer nodig hebt, in plaats van een veelheid aan software. Of PDF dan voor een bepaalde klasse documenten ook echt de beste keuze is, is een ander verhaal. Wel denk ik dat het argument dat PDF nog lang ondersteund zal worden goed te maken is, anders dan voor de vele vergankelijke formaten van kantoorsoftware.

    Er zijn nog wel wat argumenten voor PDF die je niet of zijdelings raakt. Zo biedt een PDF document gestandaardiseerde mogelijkheden om de inhoud digitaal te signeren, zodat het document weliswaar gewijzigd kan worden, maar niet zonder dat duidelijk is door wie, wanneer en hoe. En een PDF document slaat niet alleen de documentinhoud op (zoals bijvoorbeeld een .doc dat doet), maar ook informatie over hoe de inhoud vormgegeven moet worden. Dat is niet belangrijk omdat het er dan overal hetzelfde uitziet, maar omdat het dan tenminste weergegeven kan worden in een presentatie die correcte interpretatie mogelijk maakt in afwezigheid van specifieke software.

    Tenslotte: hoewel ik je mening dus deel dat PDF ongeschikt is als archiefformaat voor tal van documenten, weet ik eerlijk gezegd ook geen geschikte alternatieven. Een open, generiek en duurzaam formaat voor het opslaan van een spreadsheet? Laat staan een website, presentatie of interactieve toepassing...

    BeantwoordenVerwijderen
    Reacties
    1. @Grismar
      Even ingaand op je laatste alinea: kan dat niet opgelost worden dmv XML? Het grote voordeel vind ik dat in XML dat vorm, inhoud, structuur en functie binnen de eenheid gescheiden worden vastgelegd (en dus analyseerbaar/reconstrueerbaar zijn) en dan nog wel als 'platte tekst'.

      Verwijderen
    2. @Grismar
      Ivm dat 'signeren': vergeet niet dat PAdES een veel jongere standaard is dan CAdES of XAdES. Zo levert PAdES nog veel uitwisselingsproblemen op wanneer ondertekende PDF-documenten met andere PDF-software dan die van Adobe wordt geopend. De voorbije jaren hebben diverse ETSI-plugfests aangewezen dat XAdES veel beter scoort op het vlak van interoperabiliteit dan PAdES. En zo'n XAdES handtekening kun je gewoon opslaan in het .docx of .odt bestand. En ja, beide formaten zijn ook ISO-normen. Het plaatsen van PAdES-handtekeningen gebeurt vandaag de dag hoofdzakelijk client-side wat dan weer heel wat configuratiewerk op elk toestel vraagt.

      Verwijderen
    3. @Grismar in aanvulling op Filip en Chido nog dit:
      1. Het argument dat je nog meer één programma nodig hebt, als je alles naar PDF omzet, komt toch wel erg dicht in de buurt van mijn paternoster-analogie: documenten van A4 en groter passen er niet in, dus maken we de documenten maar kleiner. Dat deden we vroeger toch ook niet? Voor grote kaarten gebruiken en akten met een zegel hebben we toch ook apart kasten?
      En verder lijkt me odf een redelijk duurzaam alternatief voor excel-sheets. Zie ook de reactie van Filip hier beneden.

      Verwijderen
  4. Mooie blog!
    De essentie zit wat mij betreft in de een-na-laatste zin:
    "Als je een papieren document scant, dan mag je dat best in pdf opslaan, maar voor bijna alle "born digital" archiefstukken zijn andere, betere formaten beschikbaar."
    Het feit dat dat nog niet tot het gemene gedachtegoed behoort, toont aan dat 'we' nog steeds in papier denken. Dat is natuurlijk ook het eenvoudigst. Net als het aanpassen van de nieuwe paternoster aan je documentverkleiner. Het wijzigt namelijk niet alleen het formaat, maar je hele vertrouwde werkproces. En dat is moeilijk om mee om te gaan.

    Nog een kleine anekdote over de derde door jou beschreven mythe: Pdf-bestanden zien er op iedere computer hetzelfde uit.
    Toen ik eens meewerkte aan het in elkaar zetten van een gezamenlijk jaarverslag van de Randstedelijke Provinciale Archiefinspecties, stuurde een van de inspecties, in pdf, een kaartje rond met het inspectiegebied en daarin de verschillende werkgebieden ingekleurd en de verschillende typen inspectiepunten aangegeven. Zowel mij Utrechtse collega als ik (Flevoland) begrepen de legenda op het kaartje niet. De Noord- en Zuidhollandse collega's zagen het probleem niet. Na wat heen-en-weer telefoneren bleek dat de 'tekstgebaseerde' legenda op het verder gevectoriseerde kaartje door onze (Flevoland en Utrecht) Acrobat Viewer (deels dezelfde versie) anders werd geïnterpreteerd dan in de andere provincies. Daardoor was de legenda (en dus grotendeels de kaart) niet meer interpretabel voor ons.
    Dat 'het ziet er hetzelfde uit' is maar betrekkelijk.

    BeantwoordenVerwijderen
  5. Als je de lange thread doorleest, waarin de suggestie is gedaan om agenda-items uit Outlook om te zetten in een PDF-document, begrijp je waarover het gaat. Het gaat om een praktische oplossing voor het archiveren van born digital materiaal. Dan is het natuurlijk niet voldoende om te horen wat de overwegingen, criteria en uitgangspunten zijn om het goed te doen. Of hoe je het niet moet doen. De gebruiker, ook de halve digibeet als ik, wil gewoon een werkbaar instrument. Geen theoretische oplossingen of oplossingsrichtingen. Daarmee kunnen we niets.

    Waarom hebben we na 20 jaar bezig geweest te zijn sinds het MLG-rapport van de Algemene Rekenkamer hiervoor nog steeds geen praktische oplossing? Omdat we streven naar de ideale, definitieve, alles omvattende oplossing, perfectionisten als we zijn. Die bestaat natuurlijk niet. En als we die vandaag bijna hebben ontwikkeld, is 'ie morgen weer verouderd.

    We moeten dus streven naar praktische instrumenten, voor ieder begrijpelijk, goedkoop en goed bereikbaar. Dat zal ongetwijfeld niet de ideale oplossing opleveren, maar het in de ban doen van het PDF-formaat doet dat ook niet. Veel nuttiger is het om aan te geven wanneer dit formaat wel en wanneer het beter niet gebruikt kan worden, wat het alternatief is voor bijvoorbeeld websites, databases, spreadsheets, tweets, emails, enz.

    Voor mij als archivaris betekent het dat ik met suboptimale oplossingen geconfronteerd zal worden. Daarmee zal ik moeten leren leven.

    Wees praktisch en gebruik het theoretische alleen als onderbouwing.

    BeantwoordenVerwijderen
    Reacties
    1. Dag Henny,

      Misschien heb je hier al een goede aanzet: http://www.edavid.be/davidproject/teksten/Richtlijn4.pdf?

      En ja, de meeste aanbevelingen zijn realiseerbaar en kosten niet veel geld. Een .docx omzetten naar .odf kost niks. Een .msg omzetten naar .xml kost even veel. En een digitale agenda rechtstreeks in XML archiveren doen wij gewoon met MS Outlook. Wat mij betreft zijn dit geen 'suboptimale' of 'pragmatische' oplossingen, maar oplossingen waarmee we wel de essentie van onze missie realiseren.

      Gr van over de grens,
      Filip

      Verwijderen
    2. Dank je voor je reactie Henny.
      Ik geloof dat ik uiteindelijk PDF niet helemaal in de ban heb gedaan en ik heb zelfs verwezen naar andere standaarden die gebruikt zouden kunnen worden. Ik ben ook niet tegen "pragmatische" oplossingen, als er maar over de consequenties nagedacht is. En zoals ik het in de LinkedIn-discussie lees, is dat daar niet het geval. De indruk die ik daarbij krijg is: pdf/a is altijd goed, dus nu ook. En daar probeer ik tegen in te gaan.
      Verder zijn er, zoals Filip ook aangeeft, allerlei praktische oplossingen beschikbaar. Maar die worden niet gebruikt of geëist door DIV-ers en archivarissen.
      Waarom niet?
      Ik ben geneigd hier kennisgebrek en gemakzucht te antwoorden, maar dat is misschien niet fair. Feit is dat in de gemeentelijke en provinciale organisaties (inclusief clubs als KING, SOD etc) heel veel mensen blindelings achter de leveranciers van dms-en, rma's en zaaksystemen aanlopen, zonder na te denken over aspecten authenticiteit, gedrag etc.
      Ik denk dat daar iets moet gebeuren. Misschien dat dit in de Innovatieagenda meegenomen wordt en anders moeten we dit zelf maar organiseren...

      Verwijderen
  6. Ja, Ja, Ja! Het is eindelijk gezegd. Dankjewel Ingmar.

    Je brengt mijn zeer lang sluimerende gevoel van onbehagen over PDF prima onder woorden...

    Gaan we ons nu eindelijk druk maken om de bewaarSTRATEGIE in plaats van het bewaarFORMAAT? Ik hoop het van harte.

    BeantwoordenVerwijderen
  7. Volledig akkoord natuurlijk, maar dat wist je al:)) Naast de opgesomde nadelen heb je natuurlijk ook de evolutie naar digitale content die steeds minder bestemd is om te worden afgedrukt op (digitaal) papier.
    En eigenlijk vind ik de hele discussie over PDF(/A) en digitale duurzaamheid wat naast de kwestie. Ik maak me veel meer zorgen over de duurzaamheid en de systeemonafhankelijke reconstrueerbaarheid van ALLE componenten die samen een AIP vormen. Wat ben ik met een leesbaar document, als de essentiële en contextuele metadata ontbreken of niet begrijpbaar zijn? We stoppen die immers massaal in slecht gedocumenteerde en leveranciers- of implementatorafhankelijke systemen. En het is die AIP die ik als geheel moet kunnen reconstrueren. Dan pas heb ik een 'record' of een archiefdocument.
    En nu we toch over PDF bezig zijn: hoe archiveer je een digital-born PDF die je niet naar PDF/A kan omzetten? En als omzetting wel lukt, wat dan met het (potentiële) informatie- en kwaliteitsverlies?
    Nee, PDF(/A) is imho hoogst bruikbaar voor de digitalisering van papieren archief. Voor digital-borns vormen XML-gebaseerde formaten een beter alternatief.

    BeantwoordenVerwijderen
    Reacties
    1. Zoals ook al in mijn antwoord aan Hennie hierboven: het wordt - in Nederland - inderdaad hoog tijd dat duidelijk wordt dat betrouwbare en bruikbare metadata essentieel zijn en blijven.
      Laten we daar het komende jaar dan maar (weer) eens aan gaan werken.

      Verwijderen
  8. Ik heb deze blog blijkbaar gemist het afgelopen jaar, maar gelukkig maak je een eindejaarslijstje!

    Ik zie de hang naar PDF of welk ander standaard opslagformat dan ook als een ultiem bewijs dat het denken over digitale archivering het papierentijdperk nog niet is ontstegen. Ik zag in enkele reactie op deze vblog, die ik kort heb doorgelezen, dat er meer mensen zijn die dat niet zo expliciet zeggen, maar wel aangeven dat de aard van een document, liever gezegd van informatie"drager" (waar komen al die onmogelijke termen eigenlijk vandaan??), zich lang niet altijd laat vertalen naar een virtueel maar eendimensionaal, document zoals pdf.

    Loskomen van het dogma van "het" document. In de digital born fase is een document zoals wij daar nu nog steeds over praten niet meer bestaand. Het is een digitale neerslag van toetsaanslagen in een applicatie. Daar ligt het origineel naar mijn mening. En elke export die je er van maakt is een kopie. Pdf, e-mail, Word, etc.

    Mosterd na de maaltijd, ik weet het. Maar ik wilde het toch nog even kwijt.

    BeantwoordenVerwijderen
  9. Dank voor je reactie Luud. Ik ben het grotendeels met je eens, met uitzondering van die toetsaanslagen misschien. Er zijn ook heel wat archiefstukken die volautomatisch ontstaan, zie bijvoorbeeld hier: http://chido-advies.blogspot.nl/2011/02/de-flash-crash-van-6-mei-2010-om-144244.html
    Ander punt is dat "het document" zeker nog altijd bestaat in de zin dat informatie zoals die op een bepaald moment bestond, gereconstrueerd moet kunnen worden. Maar dat hoeft niet per se in een andere applicatie (al zal dat vaak om allerlei redenen onoverkomelijk zijn) en zeker niet in pdf.

    BeantwoordenVerwijderen