|
Stratégies de conservation d'objets numériques
De nombreuses stratégies de conservation d'objets numériques ont été proposées
mais aucune ne convient à tous les types de données, établissements ou situations.
Voici un bref aperçu des stratégies actuelles possibles.
Copie de la chaîne de bits — ou plus souvent
« copie de sauvegarde ». Cela consiste à produire un
double exact d'un objet numérique. Même si elle constitue une composante
essentielle de toute stratégie de conservation d'objets numériques, une simple
copie de sauvegarde n'est pas une technique de conservation à long terme
puisqu'elle ne résout que le problème de la perte de données due à une panne
d'un appareil ou d'un support, en raison d'un mauvais fonctionnement, d'une
dégradation, d'une destruction malveillante ou d'un désastre naturel. Une
copie de sauvegarde est souvent stockée en un lieu éloigné, afin que l'original
et la copie ne soient pas vulnérables à un même sinistre. La copie de sauvegarde
devrait être considérée comme une stratégie minimale de maintien des données,
y compris pour les données les plus éphémères et les moins précieuses.
Régénération — Il
s'agit de la copie de données numériques d'un support de stockage à long terme
vers un autre support du même type, sans modification aucune de la chaîne de bits
(p. ex. d'une ancienne bande audionumérique 4 mm qui se dégrade vers
une bande audionumérique 4 mm neuve, ou d'un ancien disque compact réinscriptible
vers un disque compact réinscriptible neuf). La « régénération modifiée »
est la copie sur un autre support suffisamment semblable pour que la chaîne de bits n'ait
à subir aucune modification concernant l'application et le système d'exploitation qui
utilisent les données (par exemple d'une cartouche de bande de 1/4 po [6 mm] vers
une bande 4 mm, ou d'un disque Zip de 100 Mo vers un disque Zip
de 750 Mo). La régénération est une composante essentielle de tout programme
de conservation d'objets numériques mais elle ne constitue pas en soi un
programme complet de conservation. Elle peut répondre aux éventuels problèmes
de dégradation et d'obsolescence du support de stockage.
Supports durables ou persistants (p. ex. disques
compact à couche réfléchissante en or) — Ces supports peuvent
réduire le besoin de régénération et, tout comme une manipulation soignée, le
contrôle de la température et de l'humidité, et un entreposage approprié, ils
peuvent diminuer les pertes consécutives à la détérioration du support.
Par contre, un support durable n'a aucun effet sur toute autre cause possible de perte,
dont la perte physique due à une catastrophe, l'obsolescence du support, l'obsolescence
des algorithmes de codage ou de mise en forme. Un support durable pourrait même mettre
le contenu en danger en donnant un faux sentiment de sécurité.
Conservation
technologique — Elle consiste à préserver l'environnement
technique de fonctionnement du système, y compris le système d'exploitation, les
logiciels d'application originaux, les lecteurs de support, etc. C'est ce que
l'on appelle parfois la solution du « musée informatique ».
La conservation technologique se veut davantage une stratégie de récupération
en cas de désastre, à utiliser pour des objets numériques qui n'ont pas bénéficié
d'une stratégie appropriée de conservation. Elle permet de faire face
à l'obsolescence des supports, en supposant que ceux-ci ne se sont pas dégradés
au point d'être illisibles. Elle permet d'agrandir la fenêtre d'accès pour des
supports et des formats de fichier périmés mais elle mène ultimement à une
impasse puisqu'aucune technologie obsolescente ne peut être maintenue indéfiniment
en état de fonctionnement. Cette stratégie n'est pas non plus à la portée d'un
établissement seul. Le maintien d'une technologie obsolescente en état d'utilisation
exige un investissement considérable en équipement et en personnel.
Archéologie numérique — Elle comprend les
techniques et méthodes de récupération du contenu de supports endommagés
ou d'un environnement matériel et logiciel endommagé ou périmé. L'archéologie
numérique constitue nécessairement une stratégie de récupération d'urgence
et fait intervenir des techniques spécialisées de récupération de chaînes
de bits à partir de supports devenus illisibles, en raison de dommages
physiques ou d'une panne de matériel tels qu'un écrasement de tête de lecture
ou le froissement d'une bande magnétique. L'archéologie numérique est généralement
pratiquée par des entreprises à but lucratif qui se spécialisent dans la
récupération de données et qui possèdent une variété de dispositifs de stockage
(y compris de types obsolescents) ainsi que des installations spéciales telles que
des pièces stériles pour le démantèlement de lecteurs de disques rigides.
À condition d'y mettre le prix, on peut souvent récupérer des chaînes de bits
lisibles à partir de supports (en particulier magnétiques) lourdement endommagés,
mais si le contenu est trop ancien, il peut ne pas être possible d'en tirer
une information utile et compréhensible.
Sauvegardes analogiques — Cette stratégie
combine la conversion d'objets numériques en une forme analogique avec l'utilisation
de supports analogiques durables, par exemple
HD Rosetta
ou la création
de microfilms aux halogénures d'argent à partir d'images numériques.
Une copie analogique d'un objet numérique peut sous certains aspects
en conserver le contenu et le protéger de l'obsolescence, au prix toutefois de la perte
d'avantages de la forme numérique tels que les possibilités de partage et le
transfert sans perte. Les textes et les images fixes monochromatiques sont les
mieux adaptés à ce genre de conversion. Étant donné le coût et les restrictions
des sauvegardes analogiques, ainsi que leur pertinence limitée à certaines catégories
de documents, cette technique n'est valable que pour des documents dont le contenu
mérite le maximum de redondance et de protection contre les pertes.
Migration — Elle consiste à copier ou à convertir
des données d'une technologie à une autre, matérielle ou logicielle, tout en conservant
les caractéristiques essentielles de ces données. Cette définition simple, due à
Peter Graham, traduit l'essence en même temps que l'ambiguïté de la migration.
Pour certains, la migration est synonyme de régénération telle que la définissent
les auteurs de Preserving Digital Information :
« Le concept de migration est plus large et plus riche que celui
de ‘régénération’ en ce qui a trait aux options de conservation
d'objets numériques. La migration est un ensemble de tâches organisées,
conçues pour effectuer le transfert périodique d'objets numériques d'une
configuration matérielle et logicielle à une autre, ou d'une génération
de technologie informatique à une autre plus récente. La migration vise
à préserver l'intégrité des objets numériques et de maintenir la capacité
des clients à les extraire, les afficher et les utiliser
malgré l'évolution technologique constante. [...] La migration comprend la
régénération comme moyen de conservation d'objets numériques mais elle s'en
distingue par le fait qu'il n'est pas toujours possible de faire une copie
ou une réplique numérique exacte d'une base de données ou d'un autre objet
d'information tout en faisant en sorte qu'elle soit compatible avec la
nouvelle génération de moyens techniques. » [traduit de l'anglais]

En théorie, la migration va au-delà de la simple viabilité puisqu'elle comprend
la conversion des données de manière à éviter l'obsolescence non seulement du
support physique de stockage mais aussi du codage et du format des données. Par
contre, les effets de la migration de formats de fichier complexes n'ont pas
fait l'objet d'études approfondies. L'une des études les plus complètes à ce jour
est intitulée Risk
Management of Digital Information: A File Format Investigation [Gestion
des risques en matière d'information numérique : étude de formats de fichier].
Certaines critiques de la migration sont fondées sur le fait que ni l'authenticité
ni l'intégrité d'un document numérique ne peuvent être garanties.
Duplication — Ce terme correspond à plusieurs
réalités. La copie d'une chaîne de bits est une forme de duplication. OAIS considère
que la duplication est une forme de migration. LOCKSS
(Lots
of Copies Keeps Stuff Safe [Beaucoup de copies assurent la sécurité
du contenu]) est une forme coopérative de duplication, alors que le troc
de données entre pairs
est une forme ouverte et libre de duplication. Dans chaque cas, le but visé est
d'accroître la longévité de documents numériques, tout en maintenant leur
authenticité et leur intégrité, en les copiant et en utilisant de nombreux
lieux de stockage.
Normes — Les normes sont au logiciel
ce qu'un support durable est au matériel. Elles visent le « renforcement »
du codage et de la mise en forme d'objets numériques par le choix et
le respect de normes reconnues plutôt que de normes plus ésotériques
et moins bien prises en charge. Le recours à des normes suppose en partie
que celles-ci seront durables et que les problèmes de compatibilité résultant
de l'évolution de l'environnement informatique (logiciels d'application,
systèmes d'exploitation) seront résolus du fait de la nécessité de prendre
en charge les normes existantes dans le nouvel environnement. Par exemple,
si JPEG2000 devient une norme largement adoptée, le seul nombre d'utilisateurs
garantit que les logiciels de codage, de décodage et de restitution d'images JPEG2000
seront mis à niveau afin d'être compatibles avec les nouveaux systèmes
d'exploitation, processeurs, etc. Comme beaucoup des stratégies décrites
ici, le recours à des normes peut atténuer la menace immédiate d'obsolescence
d'objets numériques, mais il ne constitue pas une solution de conservation
plus permanente que l'emploi de disques compact à couche réfléchissante en or
ou de tablettes de pierre.
Normalisation — Il
s'agit de la mise en œuvre officielle de normes. Dans des archives, tous
les objets numériques d'un type donné (p. ex. images en couleurs, textes
structurés) sont convertis en un même format de fichier choisi au préalable
et sensé représenter le meilleur compromis de caractéristiques telles que
la fonctionnalité, la longévité et la facilité de conservation. Les
avantages et inconvénients des normes s'appliquent aussi à la normalisation.
Définition
d'une forme canonique — Aussi désignée par le néologisme
canonicalisation, cette technique consiste à déterminer si les
caractéristiques essentielles d'un document numérique demeurent intactes
lors de la conversion d'un format à un autre. La définition d'une forme
canonique est fondée sur la création d'une représentation d'un type d'objet
numérique qui en couvre tous les aspects importants d'une manière hautement
déterministe. Une fois qu'elle est définie, on peut utiliser la forme
canonique pour vérifier de manière algorithmique si un fichier a perdu
ou non une partie de son essence lors d'une conversion. On a postulé que
la définition d'une forme canonique pourrait aider à tester l'intégrité
d'une migration mais cette technique n'a pas encore été mise en œuvre.
Émulation — Elle
consiste à utiliser une combinaison de logiciel et de matériel pour reproduire
toutes les caractéristiques essentielles d'un ordinateur de conception différente,
permettant aux programmes ou aux supports conçus pour un environnement informatique
donné de fonctionner dans un environnement différent, généralement plus récent.
L'émulation suppose la réalisation d'émulateurs, des programmes qui traduisent
le code et les instructions d'un environnement informatique de manière à ce
qu'ils s'exécutent correctement dans un autre environnement.

Un émulateur général bien connu est celui inclus dans des versions récentes
du système d'exploitation Macintosh de Apple et qui permet d'utiliser
des programmes fondés sur des processeurs plus anciens qui ne sont plus
utilisés dans les ordinateurs Apple. Cependant, la pluplart des émulateurs
disponibles ont été conçus pour permettre d'utiliser dans des ordinateurs
modernes des jeux informatiques écrits pour des systèmes maintenant obsolescents.
Le concept d'émulation a été mis à l'épreuve dans plusieurs projets, avec
en général des résultats prometteurs. Par contre, une utilisation à grande
échelle de l'émulation comme stratégie de conservation à long terme d'objets
numériques exigera la création de consortiums chargés des tâches techniques
de la création d'émulateurs fonctionnels ainsi que du travail administratif
requis pour recueillir les spécifications et la documentation des systèmes
à simuler et obtenir les droits de propriété intellectuelle rattachés
au matériel et aux logiciels pertinents.
Encapsulation — On
peut la concevoir comme une technique de groupage d'un objet numérique et
des métadonnées nécessaires pour accéder à cet objet. Il est clair que le
processus de groupage diminue la probabilité de perte d'une composante
essentielle au décodage et à la restitution d'un objet numérique. Les
types de métadonnées à encapsuler avec un objet numérique comprennent
l'information d'identification, de représentation, de provenance, d'intégrité
et de contexte de l'objet. L'encapsulation est considérée comme
un élément clé de l'émulation.
Ordinateur
virtuel universel — Il s'agit d'une forme d'émulation.
Elle requiert la mise au point d'un « programme informatique
indépendant de tout matériel ou logiciel existant et capable de simuler
l'architecture fondamentale de tout ordinateur ayant existé depuis les
débuts de l'informatique, notamment la mémoire, les registres de l'unité
centrale et les règles de déplacement d'information de l'un à l'autre.
Les utilisateurs pourraient créer et enregistrer des fichiers numériques
à l'aide des logiciels d'application de leur choix, mais tous les fichiers
seraient sauvegardés sous une forme lisible par l'ordinateur universel.
Pour lire les fichiers dans l'avenir, il suffirait d'une seule couche
d'émulation — entre l'ordinateur virtuel universel
et l'ordinateur utilisé au moment de la lecture. »
(traduit de Tristram, Claire. « Data Extinction »,
dans MIT Technology Review, octobre 2002, p. 42)
|