|
3. Obsolescence et
menaces physiques
Introduction
Formats et logiciels de traitement de fichiers
Matériel et supports informatiques
Menaces physiques
Synthèse et conclusions
Chambre
des horreurs
|
Obsolescence : Formats et logiciels de traitement de fichiers
Introduction
Les fichiers informatiques, qui sont les objets normalement considérés comme
la principale cible de la conservation d'objets numériques, répondent à
des principes prédéfinis de structure et d'organisation. Ces principes,
habituellement désignés par le terme format de fichier, sont en
général exposés dans un document appelé définition de format.
Une définition de format donne les détails nécessaires pour construire
un fichier valide d'un type donné, et pour mettre au point les logiciels
d'application capables de décoder de tels fichiers et d'en restituer le
contenu. Ces définitions peuvent être de longueurs très variées, de bien
moins de 100 pages à beaucoup plus de 1000, selon la complexité du format.
Même si certaines définitions de format sont en grande partie indépendantes
de logiciels précis (par exemple les codes tels que ASCII et Unicode), la plupart
sont liées à des logiciels ou groupes de logiciels d'application. Ces logiciels
et la définition de format qu'ils accompagnent évoluent généralement ensemble
et leurs destinées respectives sont souvent étroitement liées. Il est donc
approprié d'aborder en même temps l'obsolescence des logiciels et celle
des formats de fichier.
Que contient une définition de format?
Sans définition de format, un fichier n'est qu'une suite de zéros et
de uns dépourvue de signification. La définition de format indique les
subdivisions, le codage, les séquences, l'organisation, la taille et les
relations internes qui définissent le format de manière unique et qui en
permettent l'interprétation et la restitution. À titre d'exemple, une
définition de format doit indiquer l'emplacement des séparations
significatives à l'intérieur de la chaîne de bits et dire si un sous-ensemble
de cette chaîne doit être interprété comme un caractère ASCII, une valeur
numérique, une instruction machine, une sélection de couleur ou quelque
chose d'autre.

Un cas d'espèce

Même s'il n'est pas nécessaire de donner les détails de définitions
de format en particulier, l'examen rapide d'un cas peut aider à comprendre
pourquoi les formats de fichier sont susceptibles d'obsolescence. Prenons
l'exemple de la définition de format
TIFF 6.0
( Tagged Image File Format [format de fichier d'image marqué]),
qui décrit ce format répandu d'image en mode point. La page 13
de ce document définit l'unité de base d'un fichier TIFF
ainsi que sa longueur maximale, puis décrit, octet par octet, la
structure interne d'un fichier TIFF valide. Un fichier qui ne
respecte pas rigoureusement ces exigences n'est pas reconnu ou
est restitué de manière erronée par un lecteur TIFF.
 |
Quels facteurs contribuent à l'obsolescence d'un format de fichier?
Un format de fichier peut devenir obsolescent pour diverses raisons :
| >> |
Les nouvelles versions d'un logiciel ne prennent pas en charge
les fichiers des versions antérieures. |
| >> |
Le format lui-même est supplanté par un autre ou devient plus complexe. |
| >> |
Le format est peu adopté, ou peu de logiciels compatibles sont créés. |
| >> |
Le format échoue, stagne ou n'est plus compatible avec l'environnement
informatique actuel. |
| >> |
Le logiciel qui prend en charge le format n'arrive pas à percer le marché
ou est acheté par un concurrent qui le retire du marché. |
Pourquoi les formats de fichier constituent-ils un défi
pour la conservation d'objets numériques?
Un certain nombre de facteurs contribuent au défi que représentent les
formats de fichier numérique. Au cours des premières décennies de l'informatique,
peu de gens étaient conscients de la menace que pouvait représenter l'obsolescence
des formats de fichier pour la conservation à long terme d'objets numériques.
Aucun effort systématique n'a été fait pour recueillir de la documentation
des logiciels ou des définitions de format de fichier. Sans une documentation
appropriée, la tâche d'interpréter le contenu d'un ancien fichier ou même
de déterminer quel est le format d'un fichier devient très pénible. Des
milliers de formats de fichier et de variantes ont été créés. Ce n'est que
récemment que l'on a entrepris de les cataloguer, de les documenter, d'en
comprendre les variantes et les relations. On commence à voir des outils
conçus pour automatiser le processus d'identification et de caractérisation
des fichiers selon leur format.
La plupart des logiciels sont régulièrement mis à niveau. Même si la majorité
des logiciels d'application peuvent lire des fichiers créés à l'aide de la
version précédente et peut-être même de la version antérieure à celle-ci, la capacité
de lire les versions les plus anciennes est souvent laissée de côté. Les fichiers
qui n'ont pas fait l'objet d'une migration
peuvent être illisibles par la version la plus récente du logiciel, et
les versions plus anciennes du logiciel peuvent ne plus être disponibles
ou ne plus fonctionner dans un ordinateur récent ou dans la version actuelle
du système d'exploitation.
De plus, en raison de la complexité et du caractère évolutif de nombreux
formats de fichier, il peut être extrêmement difficile de savoir si un
fichier converti d'un format à un autre (ou à une version plus récente
d'un même format) a conservé toutes ses caractéristiques et possibilités
de traitement.
Certains formats de fichier sont-ils moins vulnérables
que d'autres à l'obsolescence?
Comme tout logiciel peut devenir obsolescent, tous les formats de fichier
traités par un logiciel sont également vulnérables. À première vue, il
peut sembler que les fichiers utilisés par un logiciel stable (c'est-à-dire
qui subit peu de changements) sont moins susceptibles d'obsolescence, et
cela est effectivement vrai à court terme. Mais un logiciel qui n'évolue
pas devient inévitablement obsolescent lui-même car il ne s'adapte pas à
l'évolution générale de l'environnement informatique (architecture
des processeurs, systèmes d'exploitation, systèmes de codage, protocles
de transfert de données) dans lequel il doit fonctionner. Les utilisateurs
doivent donc faire attention aux formats de fichier qui évoluent rapidement
ou qui stagnent, car ils sont les uns comme les autres vulnérables à l'obsolescence.
Pour pouvoir décoder un ancien format de fichier, il faut avoir accès à la
définition de ce format. Par conséquent, le degré de contrôle exercé par l'auteur
d'une définition de format sur sa publication a un impact significatif sur la
vulnérabilité du format à l'obsolescence. Les définitions se classent
généralement dans l'une des trois catégories ci-dessous.
Définitions exclusives fermées — Certains
des logiciels les plus durables et populaires actuellement utilisés
correspondent à des définitions de format exclusives à leur auteur
et fermées. Par contre, ces logiciels ont tendance à évoluer rapidement
et à se décliner dans de nombreuses versions pour différents environnements
informatiques, avec une rétrocompatibilité limitée. De fait, la tentation
est grande sur le plan commercial de ne pas offrir une bonne
rétrocompatibilité, puisque le besoin d'échanger des fichiers force tous
les utilisateurs, y compris ceux qui préféreraient continuer d'utiliser
une version plus ancienne, à adopter la version la plus récente. Les fournisseurs
commerciaux doivent régulièrement livrer de nouvelles versions de leurs logiciels,
dotées de nouvelles fonctions et caractéristiques, pour que les utilisateurs soient
tentés de se les procurer, constituant ainsi une source constante de revenus pour
les fournisseurs.
Malheureusement, l'expérience montre que même les définitions les plus
anciennes de versions de formats de fichier retirées depuis longtemps du marché
n'ont jamais été publiées. De plus, comme l'on pourrait s'y attendre, ce sont
les logiciels de l'auteur d'une définition qui interprètent le mieux
les formats de fichier exclusifs et fermés. Par conséquent, ces formats
sont les plus vulnérables à l'obsolescence à cause du double risque d'évolution
rapide des définitions et de limitation à un seul produit ou à une seule
entreprise.
En outre, un logiciel très populaire aujourd'hui peut devenir un choix
secondaire ou même tomber dans l'oubli demain. On assiste à une importante
consolidation du secteur du logiciel, et de nombreux produits ont disparu
suite à des fusions et acquisitions d'entreprise. D'autres ont perdu la bataille
de la concurrence pour des raisons techniques ou de mise en marché.
Définitions exclusives ouvertes — Certains
formats exclusifs présentent moins de risques parce que leur définition
est publiée, ce qui permet à d'autres entreprises (et à des organisations
non commerciales) de produire des logiciels capables de lire les fichiers
correspondants. Cependant, il arrive que des entreprises changent d'idée
à propos de la publication de leur définition de format. Par exemple,
la définition du format d'image DjVu a été ouverte pendant
un certain temps, puis son propriétaire a décidé de la modifier et de ne
plus la rendre publique.
Les formats exclusifs ouverts peuvent représenter un compromis entre les
définitions fermées et les normes internationales en combinant l'influence
commerciale et un certain degré d'ouverture. On peut même envisager une
autre solution intermédiaire, comme lorsqu'un sous-ensemble d'un format
exclusif est adopté en tant que norme. C'est le cas de PDF/A, une version
d'archivage de PDF fondée sur la définition exclusive mais ouverte
d'Adobe. PDF/A se distingue de PDF par l'élimination d'éléments susceptibles
de compliquer le décodage et d'accélérer l'obsolescence tels que les
extraits audio et vidéo, Javascript, les polices externes et les espaces
colorimétriques qui dépendent du matériel utilisé.
La plupart des définitions de format exclusives mais ouvertes sont néanmoins
vulnérables aux caprices des forces du maché. Elles peuvent être abandonnées
de manière arbitraire ou pour des raisons commerciales.
Définitions non exclusives ouvertes — Les
définitions publiées produites par des organismes internationaux de normalisation
sont les plus sûres du point de vue de leur disponibilité à long terme.
En général, des représentants de nombreux organismes différents participent à
l'élaboration de ces normes, ce qui contribue à faire en sorte qu'elles tiennent
compte des besoins d'une grande variété d'utilisateurs et qu'elles ne sont pas
liées à des intérêts commerciaux particuliers. Le grand nombre de participants
à l'élaboration de ces normes favorise une reconnaissance généralisée lorsqu'elles
sont prêtes à utiliser. La rétrocompatibilité avec des normes connexes plus
anciennes est généralement une priorité, et il n'y a pas de pression commerciale
pour les rendre rapidement périmées.

Par contre, les formats standard ne constituent pas nécessairement toujours
les meilleurs choix. Pour être peu vulnérable à l'obsolescence, une norme doit
être largement adoptée tant par les utilisateurs que par les réalisateurs
de systèmes, et ce n'est pas toujours ce qui se passe.
 Un
cas d'espèce
Le format PNG ( Portable Network Graphics [graphique réseau portable])
d'image fixe en couleurs, apparu après le format GIF ( Graphic Interchange Format
[format d'échange graphique]) s'est embourbé dans des problèmes de brevets
et de redevances liés à son utilisation de l'algorithme de compression LZW. Même
s'il est clairement supérieur au format GIF sous presque tous les aspects techniques
et qu'il est libre de toute entrave commerciale, PNG n'a pas réussi à atteindre une
masse critique d'utilisation, à cause du nombre gigantesque d'images GIF existantes.
|
Choix d'un format de fichier le moins vulnérable possible à l'obsolescence
Voici les facteurs à considérer pour évaluer la pérennité d'un format de fichier :
| >> |
une utilisation répandue, |
| >> |
des antécédents de rétrocompatibilité, |
| >> |
une bonne prise en charge des métadonnées (dans un format ouvert tel que XML), |
| >> |
une bonne gamme de fonctions mais une complexité raisonnable, |
| >> |
la disponibilité d'interfaces avec des formes utilisables, |
| >> |
des dispositifs intégrés de vérification d'erreurs, |
| >> |
un cycle de mise à niveau raisonnable. |
Mesures
de conservation suggérées
Déterminez l'état des formats de fichier de vos archives numériques. Quels formats
et versions sont représentés, en quelles quantités? Un tel inventaire constitue
une étape importante de la gestion des risques liés aux formats de fichier. Réduisez
autant que possible le nombre de formats utilisés afin de diminuer la duplication
d'efforts et d'éliminer les formats qui posent des problèmes. Il s'agit d'un
processus de normalisation, qui devrait
viser en premier lieu les formats présentant le plus de risques, par exemple ceux qui
sont créés par des logiciels obsolescents ou des versions périmées de logiciels existants.
Certains formats, en particuliers ceux qui sont obsolescents, ne peuvent pas être
convertis en des formats moins vulnérables sans une certaine perte de fidélité. Si
le logiciel d'origine n'est pas disponible, il peut être impossible de déterminer
le degré de perte.
Des ressources d'évaluation des possibilités de migration commencent à faire leur
apparition. La
base de données
PRONOM peut aider à déterminer si, pour un ancien format de fichier,
il existe une possibilité de migration à l'aide d'une version plus récente ou d'un
outil spécialisé de conversion. Par contre, elle ne donne pas encore beaucoup
de détails sur l'invariance, c'est-à-dire jusqu'à quel point le fichier obtenu
après migration reproduit l'apparence et les fonctions de l'original. Le rapport
de Lawrence et al. intitulé
Risk
Management of Digital Information: A File Format Investigation [Gestion
des risques en matière d'information numérique : étude de formats de fichier]
aborde les effets de la migration sur l'intégrité des fichiers et peut dans une
certaine mesure servir de guide d'évaluation d'un processus de migration. La
méthode
INFORM vise à mesurer le potentiel de durée de conservation de formats numériques.
Ce n'est qu'en comparant attentivement les entrées et les sorties que l'on peut
évaluer les risques et les pertes. Cette méthode proactive et informée de gestion
des risques est probablement plus sûre que d'« attendre et voir ce qui
va se passer ». Cette dernière attitude pourrait entraîner des pertes
catastrophiques.
En l'absence de possibilité de migration à l'aide d'un logiciel, si le logiciel
d'origine est disponible mais ne fonctionne plus dans des ordinateurs modernes,
il peut être possible de récupérer d'anciens fichiers à l'aide d'un
émulateur. Un émulateur fonctionne
dans un système moderne mais reproduit un environnement ancien dans lequel
l'ancien logiciel peut fonctionner. Cela permet à tout le moins de lire les
fichiers et de les convertir en un format d'échange à partir duquel on peut
les convertir dans un format moderne.
Ressources à consulter
|