Archiver l'historique du Web

Publié le par Maxime

Vaste tâche isn't it ? Et non je ne parle pas de Laurence Parisot quand j'emploie ces deux mots accolés l'un à l'autre.





Ces derniers jours j'aurais pu rajouter des pages sur mon blog mais je ne savais plus où donner de la tête ! La Guadeloupe ? L'intervention télévisée de notre Che Sarkozy qui va maintenant lutter pour une meilleure répartition des richesses ? La neige (oui je sais, encore !), la belle neige qui n'arrête pas de tomber sur Berlin ? 

Il y avait ces trois jeunes filles d'une quinzaine d'années dont je voulais vous parler. Je les ai vues plusieurs matins cette semaine car nous avons partagé le même compartiment de S-bahn. Je suis fasciné par les jeunes écoliers allemands et leur passion et habilité pour les fiches Bristol ! Etais-je vraiment le seul à réviser si mollement ou bien est-ce une fois de plus une preuve de cette fameuse organisation et rigueur toute teutonne (et ça t'étonne ?) ? Je les vois toutes et tous avec leurs petites fiches qu'ils s'échangent et absorbent de main en main, de cerveau en cerveau. Tout ça pour vous dire que mes trois jeunes voisines de wagon ont étudié toute la semaine la vie, et un survol de l'oeuvre, d'un certain Karl Marx. Non pas Groucho, l'autre. Oui, le barbu. Je trouvais ça amusant de penser que ces jeunes filles de l'est de Berlin, nées toutes après la chute du fameux mur, étudiait la vie de ce grand homme.

Enfin tout ça pour vous dire que il y a de plus en plus de gens a blablaté dans le vide comme moi sur le net. Les bloggeurs mais aussi tous les autres, le contenu du web est de plus en plus important. De plus en plus lourd aussi avec ces kirielles d'images, de vidéos. Comment archiver tout ce bazar ? Débur de réponse ici, dans cet article publié par Les Inrockuptibles en date du 19 février 2009.

 



Comment conserver des milliards de pages web ? Associations et institutions se sont attelées à cette tâche colossale pour sauver le patrimoine numérique.


A l’arrivée de Barack Obama, toute trace de George W. Bush s’est évaporée du site de la Maison Blanche. Ses photos, ses discours ont été remplacés par ceux de son successeur, le bilan de sa présidence, propagande offerte en cadeau de départ, a disparu du jour au lendemain. Cette perte d’informations publiées uniquement sur le web a été récemment pointée du doigt dans le Guardian par Lynne Brindley, directrice de la British Library. “Les historiens du futur trouveront un trou noir dans la base de connaissances du XXIe siècle”, a-t-elle déclaré, soulevant l’épineuse question de l’archivage des sites internet.
 

Sites événementiels, blogs promotionnels, pages perso réagissant à l’air du temps… une page web vit en moyenne de 44 à 75 jours. Le mois dernier, l’entreprise Netcraft avait recensé 185 497 213 sites, soit 1,23 million de moins que le mois précédent. A chaque fois, c’est un petit pan d’histoire et un reflet de notre société qui disparaît.
 

De nombreuses actions ont déjà été entreprises depuis les débuts de l’internet pour tenter d’archiver le web. La plus significative est due à l’association californienne The Internet Archive (IA). Depuis 1996, elle envoie des robots recenser et photographier les sites, dont les versions successives restent disponibles sur archive.org. IA regroupe aujourd’hui 85 milliards de pages web. Certains gouvernements ont très tôt pris conscience de la nécessité de sauvegarder ce patrimoine numérique. La bibliothèque nationale australienne a lancé dès 1996 le programme Pandora (pandora. nla.gov.au), qui recense une sélection de sites en rapport avec l’Australie ou réalisés par des auteurs australiens. Au Canada, la bibliothèque nationale a entrepris dès 1993 de conserver les journaux électroniques du pays. Aux Etats-Unis, le programme Minerva de la Bibliothèque du Congrès collecte des sites sélectionnés par des spécialistes sur certains sujets. Créé en 2003, l’IIPC, consortium comptant aujourd’hui 37 pays, tente de fédérer et d’harmoniser les outils et les formats d’archivage utilisés par ses membres afin de réduire les côuts et pérenniser la transmission de ces données.
 

En France, la BNF archive les sites internet et permet leur consultation sur place (les sites audiovisuels sont pris en charge par l’INA). “Dès 1998, il est apparu nécessaire à la BNF d’avoir dans ses collections ce qui est diffusé sur le web. C’est l’esprit du dépôt légal”, explique Arnaud Beaufort, directeur des services et réseaux à la BNF. “Au titre de la continuité des collections, il était également important de garder les exemplaires numériques des publications papier qui s’arrêtaient pour passer en ligne.” Le 1er août 2006, la loi a officiellement donné mission à la BNF de collecter, d’archiver et de transmettre le web. La BNF pratique deux types de collectes. La première, large, archive une fois par an les sites en .fr et en .com édités en France sur quatre ou cinq niveaux d’arborescence. La seconde, dite “profonde”, recense toutes les pages sur le développement durable et les élections, deux sujets jugés fondamentaux pour les historiens du futur. Aujourd’hui, la BNF se penche également sur les méthodes à employer pour les sites de presse comme Rue89.
 

 

Quant aux sites communautaires, leur richesse réside dans leur instantanéité et la question est de savoir s’il faut en garder une succession d’images figées. D’autant que le caractère personnel des informations et des échanges soulève un problème moral qui vient s’ajouter aux défis méthodologiques et techniques. Un casse-tête que n’ont pas encore résolu les archivistes. “Nous n’avons pas de programme spécifique mais nous travaillons quand même sur les wikis avec la collecte d’encyclopédies type Wikipedia”, explique Arnaud Beaufort.
 

La BNF a aussi bien compris l’importance des blogs et des sites persos. Elle travaille depuis 2007 en collaboration avec l’Association pour l’autobiographie et le patrimoine autobiographique. Des bénévoles de l’APA choisissent les sites personnels dignes d’intérêt sur des critères définis avec la BNF, qui se charge ensuite de l’archivage.
 

Malgré ces efforts, cette collecte du patrimoine numérique mondial n’est forcément pas exhaustive. Reste à espérer que les choix d’aujourd’hui seront toujours pertinents demain. Et que les technologies utilisées demeurent compatibles avec celles des générations futures et permettent aux données de traverser les années. 
 

Publié dans insolite

Pour être informé des derniers articles, inscrivez vous :

Commenter cet article