Uwe M. Borghoff et al.: Langzeitarchivierung --- Methoden zur Erhaltung digitaler Dokumente. Heidelberg: dpunkt.verlag, 2003 Die Langzeitarchivierung von Dokumenten ist eine zentrale Aufgabe aller Bibliotheken und Archive. Die Entstehung aller menschlichen Hochkulturen ist eng verbunden mit der Einführung der Schriftlichkeit, die die Grundlage für die Externalisierung des kulturellen Gedächtnisses schafft und die Übermittlung seiner Inhalte an folgende Generationen ermöglicht. Die Fixierung und Verstetigung der kulturellen Überlieferung bedarf aber stets materieller Träger für das Medium der Schrift, wobei sich unmittelbar die Fragen nach der materiellen Dauerhaftigkeit der Träger, der langfristigen Lesbarkeit der schriftlichen Aufzeichnungen und der organisatorischen Strukturen für Aufbewahrung und Zugriff stellen. Den Anfang des systematischen Aufzeichnens bilden wohl die sumerischen Tontäfelchen und mit ihnen hat sich eine der ältesten Aufzeichnungstechniken für Schriftgut auch als die bisher dauerhafteste erwiesen. Die Gegenwart ist gekennzeichnet durch einen sich rapide beschleunigenden Zuwachs an digitalen Dokumenten --- darunter immer mehr ausschließlich im digitalen Medium erzeugte, aber auch diejenigen, die durch eine mittlerweile weit ausgreifende Digitalisierung konventioneller Medien generiert werden. So ist die Langzeitarchivierung digitaler Dokumente heute ein, wenn nicht das zentrale Problem für alle digitalen Bibliotheken und Archive geworden. Es ist offensichtlich, dass bei digitalen Medien die Langzeitverfügbarkeit schlechter gelöst ist als in früheren Perioden, wie Hermann Leskien zu Recht in seinem Vorwort zum vorliegenden Buch feststellt. Schnelle Technologiewechsel innerhalb weniger Generationen, die Aufzeichnungsgeräte, -medien und die Software für die Aufzeichnung, das Einlesen und Wiedersichtbarmachen betreffen, haben uns ein massives Problem beschert. Einer Vielfalt von Trägermedien von Papier über Film, magnetisierbare Schichten auf unterschiedlichen Substraten, magneto-optischen und optischen Medien stehen verschiedenene, zumeist untereinander inkompatible Codierungen für die Daten gegenüber. Erst im Laufe mehrerer Jahrzehnte ist man zumindest bei den letzteren zu einer stabilen Standardisierung gelangt; dennoch werden auch heute noch längst nicht alle Standards durch geeignete Software auf den unterschiedlichen Rechner- und Systemplattformen unterstützt. Die Entwicklung von Konzepten für eine nachhaltige Langzeitarchivierung digitaler Dokumente ist daher ein dringendes Desiderat. Mit ihrer Monographie über die Langzeitarchivierung digitaler Dokumente haben die Autoren nicht nur einen ausgezeichneten und umfassenden Überblick über das Thema auf dem aktuellen Stand der Technik vorgelegt, sondern sie präsentieren auch eine tragfähige Systemlösung, die sie in einem einschlägigen DFG-Projekt entwickelt haben --- und sie bieten sogar weitaus mehr. In der Tat gibt das Buch eine flüssig geschriebene Einführung in einige der zentralen Fragen und Konzepte digitaler Bibliotheken und Archive, die über das Archivierungsproblem im engeren Sinne hinausgreift. Insgesamt ist das Werk, das sich an eine breite Leserschaft wendet, klar und sehr sachkundig geschrieben. Die Autoren verfügen gleichermaßen über große methodische Kompetenz und Praxiserfahrung. Das Buch ist zwei Teile gegliedert: Die ersten sieben Kapitel bieten einen methodischen Überblick, während die Kapitel acht bis zehn einschlägigen Initativen und Projekten gewidmet sind. Das erste Kapitel führt in die Problematik der Langzeitarchivierung digitaler Dokumente ein. Es werden die wesentlichen Hardwareaspekte, insbesondere die Haltbarkeit der Speichermedien, behandelt sowie die Abhängigkeit digitaler Dokumente von spezieller Interpretationssoftware. Dabei werden nicht nur die wichtigsten technischen Ansätze zur Problemlösung vorgestellt, sondern auch juristische, organisatorische und gesellschaftliche Fragen auf dem Weg zu einer tragfähigen Lösung diskutiert. Kapitel zwei ist dem Systemrahmen für digitale Archive gewidmet, der die Grundlage für alles Folgende bildet. Das OAIS-Referenzmodell ("Open Archives Information System") ist ein internationaler (ISO) Standard, der die Langzeitarchivierung digitaler Dokumente zum Gegenstand hat. Um die Prozesse in diesem Rahmen abzubilden, die Bibliotheken zur langfristigen Archivierung anwenden müssen, wurde von einer gemeinsamen Initaitve der europäischen Nationalbibliotheken das DSEP-Prozessmodell ("Deposit System for Electronic Publications") entwickelt. Im dritten Kapitel wird die Migration, d.h. die fortgesetzte Übertragung von Originaldokumenten auf neue Computersysteme, als Erhaltungsstrategie behandelt. Es werden verschiedene Optionen, wie die Auffrischung und die Migration auf andere digitale und nichtdigitale Medien, sowie eine Kategorisierung digitaler Dokumente und archivtauglicher Standardformate vorgestellt. Anschliessend wird gezeigt, wie die Migration in dem eingeführten organisatorischen Rahmen umgesetzt werden kann und welche Chancen und Risiken sie bietet. Als zweite wichtige Erhaltungsstrategie wird die Emulation im vierten Kapitel eingeführt. Mit diesem Ansatz wird versucht, Originalabspielumgebungen digitaler Dokumente durch Reimplementierung auf neuen Computern am Leben erhalten. An eine Einführung in die Emulationstechnik anschließend werden ihr Einsatz zur Langzeitarchivierung, ihre organisatorische Umsetzung und ihre Chancen und Risiken besprochen. Mit Auszeichnungssprachen steht ein leistungsfähiges Mittel zur strukturierten Dokumentenbeschreibung zur Verfügung, wobei zwischen prozeduraler, struktureller und semantischer Auszeichnung unterschieden wird (Kapitel fünf). Deskriptive Auszeichnungen können sowohl innerhalb von Dokumenten als auch zur Beschreibung von Dokumenten (Metadaten) vorgenommen werden. Für die Archivierung spielen eine besondere Rolle bibliographische Anforderungen sowie die Identifikation durch "Uniform Resource Identifier", "-Name" und "-Locator" (URI/URN/URL) --- letztere zum Aufbau von Verweisstrukturen --- und persistent durch "Digital Object Identifier" (DOI). Dieses Thema wird im sechsten Kapitel mit standardisierten Dokumentenbeschreibungssprachen fortgeführt. Unter anderem wird auf PDF und HMTL eingegangen und dann ausführlich auf die Sprachfamilie XML. Für Metadaten dient das auf XML aufbauende "Resource Description Framework" (RDF). Mit Topic Maps können assoziative Verknüpfungen zwischen Termini in Dokumenten dargestellt werden. Das Kapitel schließt mit einem Ausblick auf DAML+OIL (nunmehr als OWL standardisiert), womit --- auf Erweiterungen von RDF aufbauendend --- formale Ontologien, also hierarchische Begriffssysteme, repräsentiert werden können, die ihrerseits eine zentrale Rolle beim Projekt des "Semantic Web" spielen. Dieser Teil ist allerdings zu knapp ausgefallen, denn gerade die entscheidende Eigenschaft von OWL, nämlich, dass es eine Teilsprache der Logik erster Stufe (Beschreibungslogik) ist, in der formale logische Schlüsse ausgeführt werden können, wird unverständlicherweise nicht behandelt. Das siebte Kapitel schliesst den methodischen Teil ab und diskutiert die praktischen Umsetzungsmöglichkeiten der dargestellten technischen und organisatorischen Lösungsansätze in der Langzeitarchivierung. Es wird gefordert, umgehend Institutionen einzurichten, die diese Aufgabe systematisch und nachhaltig übernehmen können. Da im methodischen Bereich die wissenschaftliche Diskussion noch bei weitem nicht abgeschlossen ist, wird zusammengefassend dargestellt, was als gesicherte Grundlage gelten kann und wo noch Klärungsbedarf besteht. Für die praktische Umsetzung werden Fragen der Machbarkeit thematisiert und es wird aufgezeigt, wie sich die wichtigsten vorgestellten Techniken für den Zweck der Langzeitarchivierung miteinander kombinieren lassen. Der zweite Teil, der einschlägigen Initiativen und Projekten gewidmet ist, beginnt mit der praktischen Definition von Metadatensätzen (Kapitel acht). Zunächst wird die aus dem bibliographischen Bereich stammende "Dublin Core Metadata Initiative" vorgestellt, dann ein australisches Projekt zur Archivierung von Behördendokumenten im PDF-Format mit Metadaten in XML (VERS), und die "Text Encoding Initiative" (TEI), die aus der Sicht der Philologie einen interdisziplinären Standard ein einheitliches Format zur strukturierten Erfassung von Texten auf der Basis von XML bereitstellt. Die "Research Libraries Group" (RLG) hat verschiedene Programme zur Langzeitarchivierung aufgelegt, die zum einen allgemeine Vorgaben zur Archivierung von Forschungsmaterialien und zum Austausch und zur gemeinsamen Nutzung solcher Archive bietet und zum anderen für bestimmte Zielgruppen --- z.B. mit der "Art and Architecture Group" --- gemeinschaftliche Lösungen erarbeitet. Das australische PANDORA ist ein Beispiel für ein Projekt, das sich gezielt der Archivierung von Hypertextdokumenten im WWW widmet. Im neunten Kapitel geht es um praktische Umsetzungen des Migrationsansatzes. Grundsätzliche Probleme werden zunächst anhand von VERS besprochen; erweitert man das Dokumentenkonzept auf numerische Datensammlungen, wie sie etwa in den Sozialwissenschaften anfallen, sind zusätzliche Maßnahmen zu treffen, um die Daten in einer für statistische Auswertungsprogramme geeigneten Form zu migrieren. Anhand des Problems der Migration verschiedener Dateiformate wird ausführlich eine Fallstudie vorgestellt, bei der im Mittelpunkt nicht die Instabilität von Medien oder veraltete Hardware, sondern die Veraltung von Datenformaten und Software standen. Ausgehend von der Überlegung, dass Migration ein fehleranfälliger Prozess ist, wurden Risikoklassen identifiziert und anhand bestimmter Dateiformate ausführlich untersucht, so dass wertvolle Erkenntnisse für Migrationsvorhaben abgeleitet werden konnten. Am ausführlichsten wird dann abschliessend das von den Autoren selbst durchgeführte DFG-Projekt zur Entwicklung eines Konzepts für die Langzeitarchivierung digitaler Publikationen in Bibliotheken behandelt. Die erarbeitete Systemlösung beruht auf einer Transformation des Problems in den Bereich der Datenbankmigration, wobei hier eine Loslösung digitaler Dokumente von ihren Ursprungsmedien und ihre Überführung in ein Datenbank-Managementsystem (DBMS) zugrundeliegt. Zu diesem Zweck wurde eine DBMS-Gesamtarchitektur für die Langzeitarchivierung festgelegt, in die dann die Dokumentdaten aus unterschiedlichen Trägermedien eingebracht werden. Auf eine Übersicht über die Dienste eines DBMS folgt eine detaillierte Darstellung der durchgeführten Untersuchungen zur Loslösung und ihre praktische Durchführung. Das erarbeitete konzeptionelle Modell berücksichtigt die physischen und logischen Anforderungen bestehender Publikationsformen und definiert eine Sicht, die einen semantikerhaltenden Zugriff auf die transformierten Dokumente erlaubt. Da die Datenbankinhalte im neutralen XML-Format extrahiert werden können, wird die Interoperabilität in wünschenswerter Weise unterstützt. Abschliessend werden mit dieser Vorgehensweise verbundene Probleme diskutiert und weiterer Handlungsbedarf aufgezeigt. Das Buch schließt mit dem elften Kapitel, in dem aktuelle Studien zur Emulationsstrategie behandelt werden. Von den zahlreichen in systematischen Untersuchungen festgestellten und tabellarisch aufgelisteten Problemen seien exemplarisch das das Zeitverhalten und bestimmte Interaktionsmechanismen bei CD-ROM-Publikationen genannt. Als ein übergreifender Lösungsansatz bietet sich hier das Konzept des "Universal Virtual Computer" an, das sich als Antwort auf die Risiken des Migrationsansatzes und die Probleme der Emulationsansatzes versteht. Im Kern sieht es eine Trennung zwischen der Archivierung des Programmverhaltens und der Archivierung von daten-orientierten Dokumenten vor. Allerdings befindet sich dieses Projekt noch in der Expermientierphase, so dass noch keine Aussagen über faktische Kosten- und Zeitaufwände möglich sind. Als Gesamturteil kann festgehalten werden, dass hier eine Monographie vorgelegt wurde, die sicher und kompetent in den Grundlagen verfasst ist, sich zugleich aber auch aufgrund des praktischen Erfahrungshintergrunds der Autoren durch hohe Praxisrelevanz auszeichnet. Dies wird gerade auch dann deutlich, wenn es um die Einbettung technischer Lösungen in das organisatorische Umfeld geht. Auch wenn in einzelnen Fällen die Darstellung etwas knapp ausgefallen ist --- auf das Defizit bei OWL wurde oben hingewiesen --- werden dem Leser anhand des ausführlichen Literaturverzeichnisses nützliche Hinweise zur Vertiefung gegeben. Angesichts der rapide fortschreitenden technischen Entwicklung ist in einem so dynamischen Gebiet wie der Langzeitarchivierung dem Leser ohnehin nahezulegen, die aktuelle Forschungsliteratur zu verfolgen. Ohne Zweifel hat das vorliegende Werk hierzu ein gutes Fundament gelegt. Die Darstellung ist insbesondere auch für Nicht-Informatiker und Nicht-Techniker geeignet und es ist dem Buch ein möglichst großer Leserkreis zu wünschen. Günther Görz, Erlangen