Digital Preservation - Langzeitarchivierung elektronsicher Dokumente

Vorab: Langzeitarchivierung (LZA) bedeutet Erfassung, langfristige Aufbewahrung und Gewährleistung der dauerhaften Verfügbarkeit von Informationen. Für den klassischen (papierbasierten) Bereich ist dies unter „Archiv“ beschrieben.

Für den Bereich der elektronischen / digitalen Überlieferung (Digital Preservation / Preservation of Digital Resources = Langzeitarchivierung digital vorliegender Informationen) gibt es noch keine vergleichbar zuverlässigen Standards wie im Bereich des klassischen Archivs. „Langzeit“ meint hier für die Bestandserhaltung digitaler Ressourcen nicht die Abgabe einer Garantieerklärung für fünf oder 50 Jahre, sondern die verantwortliche Entwicklung von Strategien, welche den vom Informationsmarkt ständig ausgehenden Wandel bewältigen können. Diese Strategien zur Vorbereitung bzw. Durchführung eines revisionssicheren LZA-Szenarios sollen im Folgenden beschrieben werden.

Substanzerhaltung

Eines von zwei Teilzielen eines Bestandserhaltungskonzepts für digitale Ressourcen ist die unversehrte und unverfälschte Bewahrung des digitalen Datenstroms, also die Substanzerhaltung der Dateninhalte, aus denen digitale Objekte bestehen. Erfolgreich wird dieses Teilziel dann erreicht, wenn die aus heterogenen Quellen stammenden und auf unterschiedlichen Datenträgern vorliegenden Objekte möglichst früh von diesen Trägern (originäre Träger) getrennt und in ein homogenes Speichersystem überführt werden. Vorzugsweise werden die Verantwortlichen ein funktional autonomes Teilsystem einrichten, dessen vorrangige Aufgabe die Substanzerhaltung digitaler Ressourcen ist. Wichtige Bestandteile dieses Systems sind automatisierte Kontrollmechanismen, die den kontinuierlichen systeminternen Datentransfer überwachen.

Die kurze Halbwertszeit technischer Plattformen zwingt laufend zum Wechsel in neue Datenträgergenerationen, womit eine Migration der Datenbestände verbunden ist. Dauerhafte Substanzerhaltung ist nicht möglich, wenn die Datensubstanz untrennbar an einen einzigen Datenträger und damit an dessen Schicksal (Haltbarkeit, Lesbarkeit) gebunden ist. Wenn man bedenkt, wie kurzlebig manche Datenträger sind, erstaunt das Vertrauen, dass allgemein in sie gesetzt sind. Technische Maßnahmen zum Schutz von Verwertungsrechten (z. B. Kopierschutzverfahren) führen hier nicht selten zu Konfliktsituationen. Mittlerweile ist man sich einig, dass ein digitales Archiv nur für solche digitalen Ressourcen eine Verantwortung übernehmen kann, deren Datensubstanz es voraussichtlich erhalten kann. In dieser Situation ist die Dokumentation des „Archivierungsstatus“ zur Herstellung von Transparenz hilfreich.

Erhaltung der Benutzbarkeit

Erhaltung der Benutzbarkeit digitaler Ressourcen ist eine sehr viel komplexere Aufgabenstellung als die Erhaltung der Datensubstanz. Folgt man dem Szenario eines „Depotsystems für digitale Objekte“, in dem Datenströme sicher gespeichert und über die Veränderungen der technischen Umgebung hinweg aufbewahrt werden, so ist man gleichwohl vor ein Problem gestellt: ohne Unterstützung wird man nicht in der Lage sein, den archivierten Datenstrom zu interpretieren, da die erforderlichen technischen Nutzungsumgebungen (Betriebssysteme, Anwendungsprogramme) möglicherweise schon nicht mehr verfügbar sind. Zur Lösung dieses Problems wurden / werden unterschiedliche Strategien diskutiert, prototypisch implementiert und erprobt. Der Ansatz, Systemumgebungen in Hard- und Software-Museen zu konservieren und ständig verfügbar zu halten, wird nicht mehr ernsthaft verfolgt. Hingegen ist die Anwendung von Migrationsverfahren für die Substanzerhaltung digitaler Daten bereits erprobt (wo es um einfachere Datenstrukturen oder den Generationswechsel von Datenträgertypen geht). Komplexe digitale Objekte entziehen sich jedoch der Migrationsstrategie, da der für viele Einzelfälle zu erbringende Aufwand unkalkulierbar ist. Aus diesem Grund wird mit Verfahren experimentiert, deren Ziel es ist, „historische“ Systemumgebungen lauffähig nachzubilden (sog. Emulation).

In Deutschland werden mehrere Ansätze verfolgt, unter denen die Anwendung formalisierter Beschreibungen von Objektstrukturen und Präsentationsumgebungen eine besondere Rolle einnimmt. Diese Verfahren setzen durchgängig erst zu einem Zeitpunkt auf, zu dem das digitale Objekt mit seinen für die Belange der Langzeitarchivierung günstigen oder weniger günstigen Eigenschaften bereits fertig gestellt ist. Darüber hinaus wirken einige wichtige Initiativen darauf hin, bereits im Entstehungsprozess digitaler Objekte die Verwendung langzeitstabiler Datenformate und offener Standards zu fördern. Welche der genannten Strategien auch immer angewandt wird: die Erhaltung der Benutzbarkeit wird nicht unbedingt mit der Erhaltung der ursprünglichen Ausprägung des „originalen“ Objektes korrespondieren. Es wird erforderlich sein, die Bemühungen auf die Kernfunktionen digitaler Ressourcen zu konzentrieren; vordringlich also auf das, was ihren wesentlichen Informationsgehalt ausmacht.

Das OAIS-Referenzmodell - Infrastruktur digitaler Archive

Der ISO-Standard „Reference Model for an Open Archival Information System (OAIS)“ beschreibt die Infrastruktur eines digitalen Archivs in Form eines Modells (aktuell: ISO-Standard 14721:2012, veröffentlicht im August 2012; technische Beschreibung und weiterführende Informationen s. weiter unten). Durch die Abgrenzung und eindeutige Benennung von Funktionsmodulen, Schnittstellen und Typen von Informationsobjekten ist es gelungen, eine über die Grenzen der Anwendergemeinschaften (Archive, Datenzentren und Bibliotheken) hinaus geltende allgemeine Sicht auf die Kernfunktionen eines digitalen Archivs zu schaffen. Dies bildet eine wichtige Grundlage für die Nutzung von Synergien bei der Beauftragung, Planung und Implementierung produktiver Systeme durch die jeweils verantwortlichen Systembetreiber.

Das OAIS-Referenzmodell beschreibt mehrere Funktionsmodule, die dem Datenfluss und den Arbeitsabläufen eines Archivs entsprechend angeordnet sind:

  • Eingangsbearbeitung (Ingest)
  • Metadatenverwaltung (Data Management)
  • Objektspeicherung (Archival Storage)
  • Erhaltung der Langzeitverfügbarkeit (Preservation Planning)
  • Bereitstellung (Access)
  • Administration

Das Funktionsmodul „Erhaltung der Langzeitverfügbarkeit“ (Preservation Planning) besteht aus vier Teilsystemen, deren Aufgabe es ist, die Umgebungsbedingungen des Archivsystems zu beobachten, Auswirkungen von technischen Veränderungen möglichst früh zu erkennen und Planungsgrundlagen für die Erhaltung der Langzeitverfügbarkeit der im System gespeicherten Objekte zu liefern.

Das Funktionsmodul „Erhaltung der Langzeitverfügbarkeit“ (Preservation Planning) umfasst die vier Teilsysteme:

  • Monitor Designated Community
  • Monitor Technology
  • Develop Preservation Strategies and Standards
  • Develop Packaging Designs and Migration Plans

Die Funktion „Monitor Designated Community" stellt durch Interaktion mit der Außenwelt des Archivsystems sicher, dass aktuelle Informationen über die Nutzerbedürfnisse gesammelt werden. Die gesammelten Informationen dienen dazu, die Bereitstellungsverfahren des Archivsystems laufend an die sich ändernden Gewohnheiten der Nutzerwelt anpassen zu können. Dies betrifft z. B. bevorzugte Datenformate, Zugriffsprotokolle und die allgemeine Kommunikation über die Außenschnittstelle des Systems.

Mit der Funktion „Monitor Technology" wird die Entwicklung digitaler Technologien in der Außenwelt des Systems beobachtet. Es sollen diejenigen Entwicklungen frühzeitig identifiziert werden, die schädliche Auswirkungen auf die Benutzbarkeit der im System gespeicherten Objekte haben können.

Die Funktion „Develop Preservation Strategies and Standards" empfängt die Informationen der beiden ersten Module und setzt sie in Aktivitätsempfehlungen an die Systemadministration um. Solche Empfehlungen können sich z. B. auf die Anwendung neuer Standards bei der Aufnahme von Publikationen in das Archiv beziehen.

Über die Funktion „Develop Packaging Designs and Migration Plans" werden die Vorgaben der Systemadministration technisch implementiert. Dazu gehört die Umsetzung von Migrations- und Emulationsstrategien. Die Informationspakete, die an den Schnittstellen der einzelnen Module des Archivsystems ausgetauscht werden, erhalten durch diese Funktionseinheit die Vorschriften über ihre innere Struktur. Ein gutes Beispiel für die erfolgreiche Umsetzung des OAIS-Modells in die Praxis ist das seit 2004 laufende Projekt „Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen – kopal“ der Deutschen Nationalbibliothek, der Staats- und Universitätsbibliothek Göttingen, IBM Deutschland und der Gesellschaft für wissenschaftliche Datenverarbeitung, Göttingen. Nachdem eine erste Implementierungsstufe im Frühjahr 2006 fertig gestellt werden konnte, wurde es ab Mitte 2007 in den Echtbetrieb der Deutschen Nationalbibliothek überführt. Zur dauerhaften Adressierung der Online-Objekte vergibt die Deutsche Nationalbibliothek persistente Identifikatoren in Form eines URN (Uniform Resource Name). Dadurch bleibt eine Web-URL dauerhaft adressierbar und zitierbar.

Technische Beschreibung des OAIS-Referenzmodells

Das als ISO-Standard 14721 verabschiedete Referenzmodell beschreibt ein Archiv als Organisation, in dem Menschen und Systeme mit der Aufgabenstellung zusammenwirken, Informationen zu erhalten und einer definierten Nutzerschaft verfügbar zu machen. Das Modell beschreibt im Detail, wie die von einem Produzenten hergestellte elektronische Information in ein Archivsystem gelangen soll, welche Bearbeitungsschritte für die langfristige Archivierung vorgenommen werden müssen und wie auf die im Archiv gespeicherte Information zugegriffen werden kann.

Das OAIS-Referenzmodell

Das Modell regelt im Wesentlichen, wie ein von einem Produzenten (Producer) hergestelltes Objekt (SIP = Submission Information Package) in das Archivierungssystem integriert wird (Ingest). Es wird nach dessen Integration in ein Archivierungsobjekt (AIP = Archival Information Package) umgewandelt und im Speichersystem (Archival Storage) abgelegt. Die Verwaltung des Objekts erfolgt im Verwaltungsmodul (Data Management). Das archivierte Objekt wird via Benutzungsmodul (Access) an den Benutzer unter Einhaltung sämtlicher rechtlicher Einschränkungen als Benutzungsobjekt (DIP = Dissemination Information Package) ausgeliefert. Die Langzeitarchivierung in Form von Migration und Emulation der Objekte wird im Konservierungsmodul geplant (Preservation Planning). Die Verwaltung des gesamten Archivierungssytems erfolgt im Administrationsmodul (Administration). Die Arbeitsabläufe sind im Wesentlichen vergleichbar mit jenen in einem klassischen Archiv. Die Schwierigkeit beim Aufbauen und Erhalten einer elektronischen Sammlung liegt in den zu archivierenden Objekten. Sie bestehen aus mehreren direkt voneinander abhängigen Komponenten, die für deren Lesbarkeit vorhanden sein müssen (Hardware, Betriebssystem, Programm, Ausgabe an Nutzer/in).

Das OAIS-Modell definiert sechs Hauptfunktionen:

1. Preservation Planning (Archivierungsplanung / Erhaltung der Langzeitverfügbarkeit)

  • Verfolgen der Technologieentwicklung und Entwickeln von Empfehlungen in Bezug auf Archivierungsstandards und -politik
  • Überwachen der Archivierungsbemühungen
  • Ausarbeiten von Empfehlungen für die Erhaltung der Lesbarkeit der gespeicherten Information
  • Planen von Datenmigrationen und Kopiervorgängen

2. Ingest (Datenübernahme / Eingangsbearbeitung)

  • Übernahme der vom Produzenten erzeugten SIPs (Submission Information Packages)
  • Überprüfung auf Vollständigkeit und Unversehrtheit
  • Umwandlung der SIPs in AIPs (Archival Information Packages)
  • Extraktion der beschreibenden Information für die Findmitteldatenbank (Metadaten-Datenbank)
  • Übermittlung der AIPs an den Archivspeicher
  • Mitteilung an das Data Management

3. Data Management (Metadatenverwaltung)

  • Verwaltung der beschreibenden Informationen (Datenbank), die Archivbestände und Dokumente identifizieren, sowie weiterer Daten, die für den Umgang mit dem Archivgut notwendig sind
  • Entgegennahme und Bearbeitung von Anfragen (Queries) aus dem Nutzungsbereich

4. Archival Storage (Archivspeicher / Objektspeicherung)

  • Aufbewahrung und Erhaltung der AIPs
  • Erstellen von Backups
  • Regelmäßige Prüfung der Datenintegrität
  • Wiederherstellungsmechanismen für Notfälle
  • Weitergabe von AIPs an die Komponente Access für die Nutzung

5. Access (Bereitstellung / Nutzung)

  • Benutzerinterface
  • Ermöglichen von Recherchen und Generieren von Antworten mit Beschreibung der AIPs und Angaben zu deren Verfügbarkeit
  • Empfangen und Verarbeiten von Datenanfragen (Requests), Umwandeln der AIPs in DIPs (Dissemination Information Packages) und Ausliefern der DIPs an die Benutzer (Ausgabe)
  • Sicherstellen der Einhaltung von Zugriffsberechtigungen

6. Administration

  • Steuerung der Gesamtabläufe im OAIS und seiner Außenbeziehungen
  • Konfiguration von Hard- und Software
  • Vergeben von Zugriffsrechten

Die ausführliche Beschreibung des OAIS-Referenzmodells in deutscher Sprache finden Sie hier.

Mehr zum Thema bei nestor, dem deutschen Kompetenznetzwerk zur digitalen Langzeitarchvierung finden sie hier.

Keine Panik!

Auch wenn das alles furchtbar klingt und man von den technischen Informationen und Anforderungen auf den ersten Blick schier erschlagen wird, so ist die Relevanz des OAIS-Referenzmodells, das sich bereits als faktischer Standard zu etablieren beginnt und sich – m. E. auch durchsetzen wird – nichtsdestoweniger als sehr hoch einzustufen.

Im Bereich Digital Preservation / Langzeitarchivierung elektronischer Dokumente muss es also darum gehen, den Anschluss nicht zu verpassen und sich strategisch so aufzustellen, dass die ungemein wichtigen digitalen Quellen erhalten bleiben. Das bedeutet zumindest, dass Hardwaremigrationen und Datenmigrationen auch bei Ihnen auf der Tagesordnung stehen müssen.

Ist das so?
Falls nicht, sollten Sie keine Zeit verlieren und die dringend erforderlichen Schritte tun!

Ich stehe Ihnen als kompetenter und zuverlässiger Partner gerne zur Verfügung und entwickle gemeinsam mit Ihnen die nötigen Strategien.