J'ai eu l'occasion l'année dernière d'assister à deux comptes rendus de projets de numérisation d'archives, aux Archives d'Etat de Genève et aux Archives de l'Abbaye de Saint-Maurice.
Dans les deux cas, les documents sont numérisés directement en JPEG "haute qualité", respectivement à 300 et 250 dpi. L'argument avancé pour le choix de ce format était le fait qu'il nécessite des capacités de stockage moindres qu'un format sans compression.

Ces conférences m'avaient rappelé un exposé d'un membre du LIRIS, un laboratoire du CNRS dont une équipe spécialisée dans le traitement de l'image numérique a collaboré à plusieurs projets de numérisation de collections patrimoniales.
Je viens de trouver un article[1] qui reprend plus ou moins les termes de cet exposé.

On peut retenir de ce travail que le JPEG n'est pas adapté à la numérisation de documents textuels. Pourquoi donc? Je cite les auteurs

Une image de texte est constituée principalement de caractères de formes très complexes présentant des contours trop détaillés. La compression JPEG qui réduit la redondance des couleurs adjacentes par un filtrage fréquentiel ne peut pas fidèlement reproduire les contours des caractères.

Conséquence:

la compression JPEG modifie de plus de 50% la qualité de l’image dès que nous diminuons le facteur de qualité de 100% à 90% seulement.

Ce qui implique que les traitements ultérieurs de l'image (restauration, OCR) ne fonctionneront plus correctement[2].
De plus, le gain de poids du fichier obtenu n'est pas optimal en regard de la perte de qualité.
Un autre reproche fait au JPEG est son manque de métadonnées adaptées à un traitement documentaire des images.

Qu'est-ce qui pourrait le remplacer? L'article évoque plusieurs méthodes fonctionnant sur la séparation de l'arrière-plan (texture du papier) et de l'avant-plan (caractères, dessin) et l'utilisation d'une compression adaptée pour chacun de ces plans, ce qui permet d'obtenir des fichiers de taille raisonnable sans une perte d'information excessive.

Mais de tels formats ne sont pas supportés par les navigateurs web actuels; il faudrait par conséquent passer de toute façon par une conversion ultérieure en JPEG ou autre format d'image pour permettre une diffusion en ligne.
Alors à quoi bon? Il me semble important de distinguer la matière première (la numérisation originale) du résultat final (ce qui apparaît au lecteur). Si l'on veut pouvoir profiter des avancées prochaines dans le domaine du traitement automatique des images, il peut valoir la peine de privilégier la qualité dès à présent, pour éviter de refaire le travail par la suite.

Evidemment, cela a un coût. Et les services d'archives sont déjà bien contents s'ils obtiennent un budget pour un projet basique. Mais qu'arrivera-t-il à long terme?

Notes

[1] Compression et accessibilité aux images de documents numérisés : application au projet DEBORA. F Lebourgeois, H. Emptoz, E Trinh. Document Numérique 7(3-4):103-125, Hermes Lavoisier, ISBN 2-7462-0845-8. 2003.

[2] L'information ainsi perdue ne pourra en outre pas être récupérée.