Le projet Archives Web Suisse fait partie du programme E-Helvetica qui a pour but la constitution d'une collection d'helvetica numériques et la mise en oeuvre du système qui les conservera. Le programme regroupe plusieurs projets à côté de l'archivage de sites web: la conservation de thèses numériques, de publications officielles de la Confédération et l'introduction d'un dépôt numérique par les éditeurs commerciaux.

L'organisation générale des outils et processus suit le modèle OAIS. A l'heure actuelle, les différentes entités fonctionnelles du système sont déjà en exploitation, à l'exception du module Accès.

Le projet Archives Web Suisse a démarré en 2005, en partenariat avec onze bibliothèques cantonales. Il est opérationnel depuis le 1er mai 2008, et regroupe aujourd'hui vingt-trois bibliothèques cantonales, dont les activités sont coordonnées par la BN. Au niveau international, la BN collabore avec Internet Archive, European Archive et l'International Internet Preservation Consortium (IIPC)

Les bibliothèques cantonales s'occupent de la sélection des sites à archiver et de la saisie des métadonnées; la BN prend en charge la collecte et la conservation des sites.

Grossièrement, les différentes activités se répartissent ainsi:

Sélection des sites à conserver

Au contraire de ce qui se fait dans d'autres pays, il a été décidé de ne pas faire une collecte totale de tous les domaines en .ch (on en dénombre plus de 1.300.000, la Suisse présentant une des plus fortes densités de noms de domaine du monde) pour des raisons de ressources et de pertinence.

La sélection s'opère au niveau cantonal par les différentes bibliothèques, suivant une notice qui définit une typologie des sites et des critères de sélection communs (pdf). Les responsables d'e-Helvetica commencent également à travailler avec d'autres institutions pour des sélections plus thématiques: Schweizerisches Sozialarchiv ou, au sein même de la BN, les Archives littéraires suisses. Il a aussi été décidé de faire des collectes spécifiques pour certains événements, comme les élections fédérales de 2007 ou l'Euro2008.

L'évaluation de la valeur des sites devient une tâche prépondérante, ce que Barbara Signori présente comme une nouveauté pour les bibliothécaires[1].

Lors de la déclaration des sites sélectionnés, les institutions partenaires saisissent aussi une partie des métadonnées, et définissent la future fréquence de collecte des versions successives des sites archivés.

Collecte

En l'absence de dépôt légal, la BN doit obtenir les droits pour télécharger les sites; elle le fait sur le principe de l'opt-out: un email est envoyé au propriétaire du site pour annoncer le téléchargement, et la collecte commence en l'absence de réaction. Jusqu'à présent, les rares opposition des propriétaires ont été résolues par un dialogue direct.

Les processus sont automatisés au maximum. Plusieurs outils libres sont utilisés:

  • pour le moissonnage des sites: Heritrix
  • pour le contrôle des formats de fichier: Jhove
  • pour la navigation dans les sites archivés, et donc le contrôle qualité: la Wayback Machine

La BN teste aussi NetarchiveSuite et Web Curator Tool.

Seul le contrôle qualité se fait manuellement. Sont vérifiés l'aspect du site, la complétude des documents, le fonctionnement des menus, liens, formulaires etc.

Les différents obstacles à la collecte comprennent entre autres:

  • la quantité des données
  • les crawler traps qui piègent les robots en offrant des liens à l'infini (par ex. les calendriers)
  • les applications dynamiques (CMS ou autres)
  • les sources externes, notamment les images, les application Flash, les ressources en streaming
  • les fichiers robots.txt bloquant la collecte
Saisie

Le catalogage est minimal et suit les normes adoptées par la BN (MARC21, AACR2, CATS). Il n'y a pas d'indexation matière, mais une classification Dewey à trois chiffres est associée à chaque site. La notice est intégrée automatiquement au catalogue de la BN Helveticat. Dans les états de collection, chaque version d'un site téléchargé en représente un exemplaire.

Archivage

Les fichiers sont conservés avec les autres collections numériques de la BN dans la plate-forme d'archivage Ninive, constituée au niveau matériel de serveurs NAS redondants, hébergés à Berne sur deux lieux différents (une sauvegarde supplémentaire étant conservée sur bandes; la capacité actuelle n'est que de 9 To.

Accès

Un système d'accès est prévu pour fin 2010: les usagers n'accéderont pas directement au serveur d'archivage par mesure de sécurité, mais à un serveur cache.

Quelques chiffres

Au 14 août 2009, on comptait 724 sites sélectionnés (depuis le 1 mai 2008). 637 ont déjà collectés; parmi ceux-ci, 283 présentent une qualité insuffisante pour l'archivage et nécessiteront une deuxième collecte. Les sites déjà archivés dans le systè,e comptent en moyenne 49 Mo et 946 documents; la BN ayant débuté par les sites les plus faciles à archiver, ces moyennes ne sont probablement pas représentatives de l'ensemble: le site de l'Euro08 compte ainsi 470 Go de données, et cinquante millions de documents. Il y a plus de quarante formats de fichiers différents.

Perspectives
  • travail sur les problèmes juridiques et sur la notion de fair use pour l'archivage
  • en collaboration avec l'IIPC: automatisation du contrôle qualité, développement de la préservation à long terme
  • développement d'un modèle de coût pour étendre les opérations d'archivage

Voilà pour mes notes! Si vous avez d'autres infos, n'hésitez pas à les laissez en commentaire. Et pour voir ce qui se fait ailleurs, vous pouvez lire les billets de Bibliobsession et liberlibri sur les travaux de la BnF, et les actes de la conférence iPRES2008 (pdf 5Mo, p. 305) où il y avait eu un intéressant comparatif des différentes pratiques nationales d’archivage du web (pdf)

Notes

[1] A ce sujet, je me souviens d'un exposé de Gildas Illien, responsable du dépôt légal de l'internet à la Bibliothèque nationale de France, qui affirmait que les biblothécaires devaient recourir au savoir-faire des archivistes en la matière.