Les métadonnées : Introduction à la discipline

Les métadonnées sont caractéristiques de l’archivage tant papier que numérique. Mais au fond que sont-elles réellement ? Que représentent-elles ?

Qu’est-ce qu’une métadonnée ?

Une métadonnée est, littéralement, une donnée sur la donnée. Autrement dit, elle sert à décrire, à caractériser une ressource quel que soit son support (papier ou numérique).

De manière générale, il existe trois grands types de métadonnées : descriptives, administratives et structurelles. Nous y reviendrons plus bas. Ces métadonnées peuvent être contenues dans un enregistrement séparé, ce qui est le cas pour les catalogues de bibliothèques par exemple. Et à l’inverse les métadonnées peuvent être situées dans la ressource elle-même, on parle alors de métadonnées embarquées.

Quelle est son utilité ?

Le but des métadonnées est de contenir des informations sur la source, la nature, le contenu informationnel et la localisation physique du document. Elles permettent de garder une trace et de conserver la mémoire des documents. Les métadonnées constituent des données « vivantes » qui doivent être mises à jour le plus régulièrement possible.

Ces données sont construites dans des langages permettant l’interopérabilité. Il s’agit la plupart du temps de formats de type CSV ou XML. Ces formats sont utilisés car ils sont ouverts, utilisables et lisibles par d’autres utilisateurs. Néanmoins, ces formats de fichiers sont utilisés lors de l’absence d’une application capable de gérer et de lire les métadonnées.

Certaines métadonnées sont enregistrées automatiquement. Par exemple, si on charge une image pour la joindre à un article, les informations telles la dimension de l’image, son titre, l’heure de l’enregistrement ou son auteur sont directement enregistrées. D’autres doivent être rédigées manuellement. Dans ce cas, les métadonnées doivent être écrites de manière précise mais synthétique. Ce travail est très important même s’il peut paraitre un peu répétitif.

Les types de métadonnées

De manière générale, il existe trois grands types de métadonnées. Les premières sont les métadonnées descriptives. Elles décrivent les informations de description. Ce type de métadonnées est rattaché au document original, qu’il soit numérique ou papier. Elles permettent de trouver, identifier et sélectionner un document en vue d’y accéder. Citons, par exemple, le Dublin Core.

Ensuite, les métadonnées administratives, servent à documenter le contenu et la gestion documentaire. Elles aident à la préservation des informations techniques nécessaires à la lecture des fichiers, à garantir l’intégrité des documents ainsi que leurs éventuelles modifications. Il existe différents types de métadonnées administratives, celles concernant la technique, ou la provenance de l’information. La question de la préservation peut elle aussi être traitée ainsi que celle concernant la gestion des droits. Ici, des schémas de métadonnées comme PREMIS ou METS peuvent être utilisés.

Enfin, les métadonnées structurelles rattachent les fichiers d’un même document entre eux. Elles permettent de restituer la structure du document, de connaitre tous les fichiers qui le composent et de connaitre la relation physique entre les différentes pièces. En résumé, elles documentent le cycle de vie de l’information.

Quelques grands standards et normes de métadonnées

Ces renseignements sont régis par un grand nombre de normes et de standards spécifiques à un domaine ou à une finalité précise. Ceux-ci sont mis en place par des experts internationaux dans le but de faciliter les échanges. Il s’agit de consensus, mais il n’existe pas de norme unique de référence pour la gestion et la préservation des documents.

Dublin Core

Le standard le plus connu concerne les métadonnées descriptives ; c’est le Dublin Core. Ce dernier est composé de quinze éléments obligatoires comme par exemple le titre, la date, le sujet, la langue, l’éditeur. Il constitue le socle identitaire du document avec un schéma basique et simple de compréhension. Considéré comme une référence dans le domaine, le Dublin Core a une portée internationale et dispose d’une capacité d’extension. Aux quinze éléments, dit simples, peuvent être ajoutés des éléments supplémentaires plus rarement utilisés. Il s’agit alors du Dublin Core DCMI. Les avantages majeurs de ce standard sont la simplicité de création et de gestion des informations, la sémantique communément comprise, l’envergure internationale due à la traduction de la version initiale et l’extensibilité de la description des ressources.

  • Pour plus d’informations lien

D’autres normes et standards, tels que le EAD, MARC, CDWA ou VRA CORE, répondent d’avantages aux exigences du métier d’archiviste, de bibliothécaire ou à celles des musées. Ces dernières ne sont utilisées, presqu’exclusivement, que dans des cadres professionnels.

EAD (basé sur la norme ISADg)

L’EAD (Encoded Archival Description) répond davantage aux exigences du métier d’archiviste. L’EAD propose des possibilités d’usages variées. Son avantage principal est qu’il permet de construire une description hiérarchisée des composants et sous-composants.

  • Pour plus d’informations lien

MARC

Le MARC (Machine Readable Cataloging), quant à lui, est utilisé pour encoder des livres, des périodiques et des articles. Il s’agit donc d’objets tant physiques que numériques. Le format MARC a engendré un nombre important de variantes nationales et internationales comme par exemple le MARC 21 utilisé par la Bibliothèque du Congrès. Ce format évolue régulièrement et est donc mis à jour systématiquement. Il facilite la saisie de données bibliographiques dans des systèmes informatisés.

  • Pour plus d’informations lien

METS

Le Metadata Ecoding and Transmission Standard (METS) est un standard de métadonnées qui vise à réunir dans un même fichier XML toutes les métadonnées nécessaires lors de la description d’un document numérique, textuel ou graphique. Ce standard est utilisé dans les institutions patrimoniales pour la préservation des objets numériques à long terme. Il est particulièrement flexible. Le METS est structuré en sept sections qui sont toutes optionnelles, sauf la carte de structure, et toutes répétables, sauf l’en-tête. Ces sections sont : l’en-tête du fichier contenant les métadonnées sur le fichier METS lui-même (date de création, dernière modification, agents contribuant à son élaboration) ; les métadonnées descriptives, qui sont des métadonnées concernant le contenu intellectuel et les composantes du document numérique ; les métadonnées administratives, qui décrivent les droits associés, les caractéristiques du fichier, l’historique et l’objet analogique ; la sélection des fichiers qui liste l’ensemble des fichiers composant le document numérique ; la carte de structure qui est une carte de structure décrivant l’organisation du document numériques ainsi que ses composantes internes ; les liens structurelsqui décrivent les éventuels liens pouvant exister entre les composantes du document numériques ; le comportementqui sert à décrire les démarches pour restituer ou utiliser l’objet numérique ainsi que ces composantes. Le METS possède deux avantages principaux :  il permet une grande souplesse et une grande liberté d’expression de l’information et possède une qualité d’adaptation aux besoins de chacun. Néanmoins, ce standard demande un grand nombre de choix de la part de l’utilisateur, par exemple celui des règles de nommage des identifiants.

  • Pour plus d’information lien

PREMIS

PREMIS est la norme de métadonnées utilisée pour préserver les objets numériques et assurer leur utilisation à long terme. Il définit un dictionnaire de données utiles pour décrire les métadonnées de préservation. PREMIS peut s’utiliser dans le cadre du METS. La plupart des métadonnées PREMIS sont conçues pour être directement fournies par l’application. Néanmoins, certains éléments doivent être enregistrés comme par exemple la provenance numérique qui documente l’histoire des modifications de l’objet ou les propriétés significatives du document qui sont les caractéristiques de l’objet. Il est intéressant d’utiliser PREMIS lorsque l’institution patrimoniale est impliquée dans la préservation du numérique.

  • Pour plus d’informations lien

EXIF

Le standard EXIF (Exchangeable image file format) est un format de métadonnées techniques couvrant un large éventail de données concernant les images. On peut par exemple y retrouver les informations de dates et heures que les appareils numériques enregistrent, les informations géographiques provenant du système GPS, la source de lumière, la distance focale,  ou encore la description et l’information des droits d’auteurs. Ce format de métadonnées est parmi les plus connus et est utilisé par un grand nombre de plateformes.

  • Pour plus d’informations lien

En plus de ces différentes normes générales, il existe des normes particulières à certains domaines comme l’archivage informatique, le patrimoine culturel, l’information géographique ou encore la gestion des documents d’archives. Celles présentées ici citées ne constituent qu’un bref aperçu des différentes possibilités existantes.

Conclusion et cas pratiques

Dans le cadre d’Archives de Quarantaine, nous avons tenté de mettre en place un schéma de métadonnées le plus conforme projet. La première étape concerne la réalisation d’un listing des métadonnées pertinentes pour les initiatives concernées. À partir de là, deux options sont possibles, soit utiliser un schéma de métadonnées préexistant, soit créer son propre schéma en lien avec les objectifs et finalités du projet. Il faut ensuite analyser les informations pouvant être générées automatiquement et, au contrainte, celles devant être mises en place manuellement. Enfin, se posent différentes questions centrées sur les informations : leur méthode d’enregistrement, leur mode de stockage et de conservation, leur accessibilité.

De part le cas plus pratique d’une plateforme, la question des métadonnées s’avère centrale tout en ouvrant la porte des réflexions propres à chaque réalité.

Illustration : Personnes vecteur créé par pch.vector – fr.freepik.com

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *