La longévité des données

Des manuscrits de la Mer Morte au DVD

Avant-propos

A moins que nous décidions de "graver en dur" quelques bribes de ce que nous appelons notre civilisation, la période actuelle risque de passer, aux yeux des archéologues futurs, pour un âge de profond obscurantisme. Si nous devons laisser une trace de nos activités et connaissances présentes, pour de possibles générations futures, il est opportun de nous soucier de la longévité des données que nous allons leur transmettre. On comprendra aisément qu'une inscription au burin dans la pierre est plus durable que celle tracée avec le doigt dans le sable. Nous allons considérer ci-après les conditions de persistance et d'exploitabilité ou compréhensibilité des données. En effet la longévité des données dépend de deux facteurs, d'une part la conservation dans le temps du matériau utilisé pour le stockage et la préservation des signes ou formes qui y sont inscrits, d'autre part notre capacité à décoder cette information, autrement dit la compréhension du message transmis. C'est ainsi que nous ignorons tout de civilisations qui n'ont pas laissé de traces tangibles de leur savoir.

La durabilité des supports de stockage (storage)

longevity1.jpg

Les os taillés d'encoches ainsi que les silouettes de mains à l'ocre rouge sur les parois des grottes sont vieux de plusieurs dizaines de millénaires.
La plupart des objets archéologiques en pierre sont parvenus jusqu'à nous, stèles maya, monuments gravés des pharaons, stèles assyriennes, temples grecs, gravures rupestres du Sahara, de la Vallée des Merveilles (image ci-contre), de la région de Coso en Californie,... de même que bon nombre d'objets en argile ou en terre cuite, tels le disque de Phaistos daté approximativement de quinze siècles avant l'ère commune. On peut considérer que leur durée est de plusieurs millénaires.


longevity6.png

La tablette en argile ci-contre est un compendium de données astronomiques, elle est datée du babylonien tardif, soit environ 500 avant l'ère commune. Cette pièce de 8.4 cm de hauteur seulement est un chef d'oeuvre miniature de l'écriture cunéiforme de Babylone. (British Museum, WA 86378). http://www.antiquetelescopes.org/before.html

Les papyrus égyptiens et chinois, les parchemins et papyrus juifs, les manuscrits de la Mer Morte, sont encore lisibles, au moins pour ceux qui ont été gardés dans de bonnes conditions, à l'abri de l'humidité et des rongeurs.
Pour ce qui est des livres imprimés nous avons moins de recul, cependant ont peut voir des livres qui ont maintenant plusieurs siècles. Il en est de même pour les toiles de peintres. La photographie basée sur l'usage de sels argentiques a une longévité d'au moins un siècle. La photo couleur, basée sur l'usage de colorants organiques, se dégrade après quelques dizaines d'années. Les chances de pouvoir lire un e-book d'aujourd'hui dans 200 ans, ou même 20, sont pratiquement nulles.

En ce qui concerne les documents sonores, inexistants pour ce qui concerne les temps anciens, ils ont commencé à être enregistrés avec l'avènement du phonographe, à partir de 1877. Les premiers enregistrements étaient faits par gravure sur des cylindres de cire. Certains sont encore lisibles de nos jours mais beaucoup on été brisés par manque de soin ou, le plus souvent, ont été détruits par les moisissures. Les disques en polymère vinilyte du XXe siècle sont toujours lisibles, cependant chaque lecture par les moyens mécaniques traditionnels les dégrade un peu, on peut dire qu'ils sont sujets à usure. Puis est venu l'enregistrement magnétique, d'abord sur fil d'acier, puis sur bandes. Le fil n'a pas laissé beaucoup de témoins car son utilisation ne dura qu'une dizaines d'annés. On peut lire actuellement des bandes (bobines ou cassettes) qui ont plusieurs dizaines d'années mais au fil du temps la qualité du signal se dégrade, on peut dire qu'elles s'effacent progressivement.

longevity2.png

Revenons un peu en arrière, vers 1725 est apparue la carte perforée. Son usage implique une méthode numérique pour l'enregistrement des données, on dit aussi méthode digitale par analogie avec le fait de compter sur ses doigts, ce qui implique une progression non plus linéaire mais par échelons quantifiés. Cette carte fut utilisée d'abord pour lire de la musique sur les orgues de barbarie. En 1801, Joseph Marie Jacquard met au point un métier à tisser doté d'un mécanisme sélectionnant les fils de la chaîne grâce à un programme inscrit sur des cartes perforées. En 1928 la société IBM dépose un brevet pour une carte dite "80 colonnes", il en sera produits des milliards d’exemplaires à partir de 1937 jusqu'en 1975. La durée de vie de la carte perforée est celle de tout document papier, conservée dans de bonnes conditions elle peut survivre des siècles, voire des millénaires. Rappelons que les données sous forme numérique peuvent être recopiées facilement sans perte de qualité.

Agrave; partir de 1975, les supports magnétiques ont définitvement la préférence. Que ce soit sous forme de bobines, de cassettes numériques (DAT) ou de disquettes (floppy disk)), c'est le règne du magnétique.

Ceci jusqu'à l'apparition du disque compact (compact disk) créé en 1979 et commercialisé à partir de 1982. Ici les informations sont "écrites" par changement de configuration physique du matériau au niveau moléculaire. Ce changement de configuration est réversible et on peut penser qu'au terme d'une ou deux décenies l'entropie aura fait son oeuvre et le matériau aura repris son état homogène initial.

Les disques des ordinateurs (disque dur, hard disk) sont aussi un moyen de conserver des données, à condition de faire migrer assez souvent ces données d'un disque ancien vers un dique neuf, en effet ces disques sont sujets à usure et leur durée est, au mieux, de quelques années. Si on attend la mort du disque pour le remplacer, les données sont habituellement perdues.

longevity3.jpg

Enfin quelques mots sur les mémoires silicium. Il s'agit ici d'injecter quelques électrons en certaines zones d'un microcircuit en cristal de silicium, espérant qu'ils y restent sagement. Vu la labilité de ces électrons, le simple passage d'un rayon cosmique peut semer la perturbation dans ce milieu microscopique et modifier les états électriques qui représentent les données. Ces mémoires ne sauraient donc constituer un moyen de conservation.

On voit clairement que plus on avance dans le temps et plus la conservation de l'information recule. Nous tendons à produire une quantité de plus en plus grande d'information tandis que sa durée tend vers zéro.

La compréhension du message

La possibilité de décoder le message est liée d'une part au degré d'intégrité des signes ou symboles et d'autre part à la disponibilité d'un moyen de les lire ou de les interpréter. En ce qui concerne les représentations analogiques, ce qui est le cas jusqu'au milieu du XIXe siècle, la lecture est réalisée le plus souvent, au moyen des organes des sens dont nous sommes assez généralement pourvus. Les écritures, peintures ou symboles graphiques font l'objet d'une lecture visuelle, soit directe, soit aidée d'instruments divers : microscope, phosphorescence, fluorescence, ... Le cerveau a la faculteé d'interpoler, ainsi dans le cas d'un signe partiellement effacé, celui-ci pourra parfois être interprété même si des parties sont manquantes. Les données qui ne sont pas interprétées par nos sens peuvent être définitivevent perdues si l'instrument nécessaire pour les lire (hardware) n'existe plus. Quant aux données lisibles directement elles peuvent aussi n'être plus interprétables parce que le langage (software) auquel elles se réfèrent à disparu. Les hiéroglyphes égyptiens ont pu être décodés parce qu'il existait des textes écrits à la fois en hiéroglyphes et en grec (Pierre de Rosette), constituant ainsi une sorte de dictionnaire. Par contre le disque de Phaistos, bien que parfaitement conservé, n'a pas pu être traduit car le langage utilisé a disparu et nous ne disposons pas de dictionnaire.

longevity4.jpg

Les documents sonores sont le plus souvent décodés à l'oreille, cependant cela nécessite toujours un instrument lecteur intermédiaire. Il faut donc conserver non seulement le document lui-même, mais aussi l'instrument capable de le lire, un cylindre de cire gravé sans le gramophone "qui va bien", c'est de information perdue. Un simple affaiblissement du signal permettra souvent une interprétation correcte, de courts éléments manquants ou déformés se traduiront par un bruit superposé au message mais celui-sera encore clairement distingué grâce au capacités de filtrage du cerveau humain.

Le problème de l'intégrité des données est plus grave dans le cas de données numériques. En effet dans un enregistrement analogique tous les quantités élémentaires d'information (bit) ont le même poids, alors qu'en mode numérique les poids sont distribués selon l'échelle de la numération binaire, soit 1 2 4 8 ... Donc si un bit de poids faible est perdu la dégradation sera faible, par contre s'il s'agit d'un bit de poids fort, la donnée sera entachée d'une erreur importante. Il en résulte que l'intégrité des données numériques est plus difficile à préserver que celle des données analogiques.

Les données actuelles stockées sur disque compact ainsi que celles de ces dernières décenies stockées sur disque magnétique souple (disquette), à moins d'être migrées à temps sur de nouveaux supports, sont fatalement vouées à disparaître à court terme. D'abord par perte de leur intégrité, ensuite parce que dans quelques années plus personne ne fabriquera les lecteurs correspondants. Certes, tout ne mérite pas d'être conservé mais garder pour les générations futures une trace représentative de notre passage et de ce que nous faisons ici est souvent considéré comme une sage mesure.

Les medias de stockage

Type d'nregistrement Nature du medium Epoque d'invention approximative Durée de vie
du medium
analogique pierre ou tablette d'argile 8000 ans BCE * > 4000 ans
analogique encre à pigments sur papier 3500 ans BCE * > 2000 ans
analogique peinture huile 600 siècles
analogique photo argentique 1820 > 100 ans
analogique photo couleur 1860 décenies
analogique enregistrement phonographique 1877 > 120 ans
analogique ou numérique bande magnétique 1928 décenies
numérique disquette 1950 3 - 20 ans
analogique ou numérique compact disc (CD, DVD) 1990 5 - 20 ans

* BCE : Before Common Era, avant l'ère commune

Les densités d'enregistrement

Type d'enregistrement Medium de données audio Densité d'enregistrement
(minutes par m2)
analogique bande magnétique 6.35 mm 19 cm/s 13.8
analogique disque vinyle 33t 411
analogique cassette audio 90 minutes 184
numérique compact disc (CD) 8060
numérique DAT 60 m (digital audio tape) 500
numérique disque dur 89 mm, 2 To 4 680 000

Ces deux tableaux sont traduits de American Scientist, bibliographie ci-après

Conclusions provisoires

Comme on peut le voir d'après les tableaux ci-dessus, nous plaçons de plus en plus de données sur de moins en moins de matière. Il est évident que ceci ne va pas dans le sens d'une bonne conservation. En effet une simple parcelle de matière manquante ou dégradée emportera avec elle une montagne de données. On peut y pallier, au moins partiellement, en jouant sur la redondance.

Pour ce qui des besoins proches les trois grands principes restent : faisons souvent des sauvegardes, ne les déposons pas toutes en un même lieu, faisons migrer les données des supports obsolètes. Pour un avenir plus lointain, une collaboration de spécialistes du langage a lancé, en vue de conserver une trace des langues en voie de disparition, le projet Rosetta en vue de créer un support apte à durer 2000 ans.

-- rleb, avril 2010

Un "rempotage" décennal

Tôt ou tard, tout format devient numérique : enregistrements audio, video, TV, photos, livres, etc... N'est-ce pas merveilleux ? Numérique signifie accès instantané, duplication à l'infini sans perte de qualité, transmission instantanée autour du globe. Cependant, à moins que nous en prenions conscience rapidement, c'est aussi un risque dans la conservation d'une trace de notre culture.

Considérons les photos par exemple. Nous savons à quoi resemblaient les gens il y a 150 ans car les tirages photos argentiques (un format analogique), sont encore aujourd'hui correctement conservés. De nos jours peu de photos sont tirées sur papier, et quand elles le sont c'est souvent avec des encres périssables. La vaste majorité des photos sont visionnées sur écran. C'est très pratique, elles ont un très bel aspect et sont souvent de plus grande taille que les version papier. Mais seront-elles visualisables dans 50 ans ? Et qu'en sera-t-il dans 150 ans ? Qu'en sera-t-il dans 50 ou 150 ans du format JPEG, aujourd'hui l'un des plus répandus pour la numérisation des photos ? Encore que JPEG a quelques chances de perdurer car il a servi à numériser des milliards de photos, mais ce n'est pas certain.

La situation est encore bien pire quand il s'agit d'autres types de documents. Conserver de la video est un véritable cauchemar. Dans la courte histoire des enregistrements video numériques nous avons déjà connu les codages MPEG-2, AVCHD, MiniDV, .MOV, .AVI, etc... sans parler des innombrables formats d'enregistrement sur bande. Les chances pour que ces videos soient lisibles dans quelques décennies sont minces.

Déjà les dernières versions de certains traitements de texte propriétaires (1) sont incapables de lire les documents écrits avec les premiéres versions. Que dire des tout nouveaux formats des e-book (livre électronique) ? Les formats mis sur le marché par les quatre grands de la profession sont : incompatibles entre eux, propriétaires, protégés contre la copie. Leur schémas de protection auront-ils encore cours, les sociétés qui les commercialisent existeront-elles encore dans 50 ou 100 ans ? Aujourd'hui quand vous achetez un livre électronique protégé, vous devez assumer que vous acquérez seulement un droit d'usage temporaire, non le livre lui-même et vous n'avez aucune chance de le transmettre à vos petits-enfants comme vous le feriez d'un vrai livre.

Compte tenu de la durée de vie des supports de stockage et de la rapidité d'évolution des techniques, on peut dire aujourd'hui qu'il est raisonnable de recoder et réenregistrer les documents à conserver tous les dix ans. C'est à ce prix qu'une partie des documents présents pourra prétendre accéder au siècle prochain. Il est probable que nos descendants nous saurons gré d'avoir fourni cet effort décennal.

Pour garder en bonne santé nos plantes d'appartement on conseille de les rempoter à intervalles réguliers. Considérez que pour ce qui est de nos données dignes d'être conservées, on doive procéder à un "rempotage" décennal.

(1) Est dit propriétaire (par opposition à libre et ouvert) un logiciel pour lequel la société qui le commercialise ne vous accorde, moyennant paiement, qu'un droit d'usage restraint, dans des conditions spécifiées, ne vous communique pas le texte source à l'origine du code, vous interdit d'en faire une copie, de l'adapter à vos besoins, de le modifier, de l'améliorer, de le communiquer.

-- rleb, avril 2011

Un bel exemple de sauvegarde

longevity5.jpg



Grotte ornée du Pont d'Arc (Ardèche), dite grotte Chauvet). Cette fresque des chevaux, tracée au charbon de bois, est datée d'environ 36 000 ans. Que seront dans 36 000 ans, nos graffitis d'aujourd'hui, devenus ?

longevity7.jpg



L'artiste Gilles Tosello participe à la création d'une copie de sauvegarde de la grotte.

-- rleb, avril 2015

Bibliographie et liens

    
File: longevity.html - Robert L.E. Billon, 2010-04-01 - Last update: 2015-04-04