Qu’est-ce que le Darwin Core, et en quoi est-il important?

Le standard Darwin Core (DwC) offre un cadre stable, simple et flexible permettant la compilation de données de biodiversité venant de sources diverses et variables

Platyspiza crassirostris
Platyspiza crassirostris by Brian Gratwicke licensed under CC BY 4.0.

Les collections d’histoire naturelle, les programmes de surveillance environnementale, les sociétés d'enregistrement, les projets de science citoyenne et autres, tous possèdent de précieuses données sur la biodiversité dans le monde.Ils collectent et gèrent leurs informations dans des systèmes ou environnements très divers; ils varient grandement en fonction des détails qui sont capturés et stockés dans chacun des enregistrements individuels.

Comment pouvons-nous intégrer ces différents jeux de données pour que ceux-çi puissent être utiliser simplement et efficacement par les scientifiques, les analystes et les gestionnaires dans leurs recherches et décisions politiques?

Le standard Darwin Core (DwC) offre un cadre stable, simple et flexible permettant la compilation de données de biodiversité venant de sources diverses et variables. Initialement développé par la communauté Biodiversity Information Standards (TDWG), le Darwin Core joue un rôle fondamental dans le partage, l’utilisation et la réutilisation des données de biodiversité en accès libre. Il représente aujourd’hui une large majorité des centaines de millions d’enregistrements d’occurence d’espèces disponibles sur GBIF.org.

En pratique, utiliser le Darwin Core se résume à utiliser un format standard de fichier, le Darwin Core Archive (DwC-A). Cet ensemble compact (un fichier ZIP) contient des fichiers de texte interconnectés et permet aux éditeurs de données de partager leurs données sur base d’une terminologie commune. Cette standardisation ne fait pas que simplifier le processus de publication de jeux de données de biodiversité, elle simplifie également la découverte, la recherche, l’évaluation et la comparaison des jeux de données pour tous ceux qui désirent répondre aux questions de recherches ou de politiques nécessitant de telles données.

Qu’est-ce qu’une archive?

Lorsqu’ils préparent une version Darwin Core Archive de leurs sources de données, les éditeurs restructurent et simplifient l’information dans un petit groupe structuré de fichiers texte. Un de ces fichiers texte est le ‘noyau’(core en anglais), il contient un enregistrement par objet inclus dans l’archive. D’autres fichiers ‘extension’ peuvent également être inclus. Ceux-ci contiennent des informations additionnelles liées aux enregistrements du fichier noyau. Les fichiers d’extension permettent à l’archive de modéliser des relations 1-à-n.

En fonction del’information contenue dans la source des données -et de leur volonté de partager -les éditeurs de données peuvent créer un DawrinCore Archive avec un de ces trois types de ‘noyaux’:

  • Un noyau Taxon qui reprend un ensemble d’espèces, typiquement venant d’une même région ou partageant des caractéristiques communes
  • Un noyau Occurrence qui reprend l’evidence de présence (ou d’absence) d’espèces en temps, et en lieux
  • Un noyau Evenement qui reprend des études de terrain (incluant les protocoles utilisés, les tailles d’échantillons et les emplacements de ceux-ci)

Dans le cas du noyau Evenement, une extension Occurrence est fréquemment utilisée pour décrire les différents observations issues de l’étude de terrain plannifiée.Enfin, chaque archive contient deux fichiers additionnels qui aident les machines et les humains à interpreter les données. Le premier, un fichier de description (meta.xml), définit la structure précise et les relations entre le noyau et les éventuelles extensions. Le second, un fichier complémentaire de métadonnées, décrit le(s) jeu(x) de données contenu dans l’archive, typiquement en langage de metadonnées écologiques (EML.xml). Ces deux fichiers sont produits automatiquement par l’Integrated Publishing Toolkit (IPT) du GBIF.

Partager des données de surveillance d’espèces et d’échantillonnage à l’aide du noyau événement

Les efforts visant à suivre des changements dans les tendances de la biodiversité dans l'espace et le temps, via l’échantillonnage et les programmes de surveillance, ont augmenté les informations disponibles sur les espèces. En plus de permettre une meilleure description des méthodes que les données de présence, les données d’événements prennent en compte des détails plus riches et plus complexes sur les quantités et les fréquences d’observation des espèces.

Parce qu’elles incluent très souvent des mesuresrépétées aux mêmes endroits, les données événements d’enquêtes ecologiques et environnementales sont plus aptes à détecter des changements et des tendances des populations d’espèces -et sont donc critique pour comprendre la portée et la vitesse du changement global. Afin d’optimiser ces données diverses et de garantir leur contribution plus efficace aux analyses scientifiques et aux résultats politiques, les chercheurs ont besoin d’un accès facile à ces données dans un format consistent et compatible.

Le standard Darwin Core est devenu le standard ouvert le plus utilisé pour l’accès libre aux données de biodiversité. Développé afin de fournir un moyen simple de documentation et de partage de l’information d’occurrence d’espèces, que ce soit sur le terrain ou dans une collection de musée, ce standard a permis l’intégration de centaines de millions d’enregistrements via GBIF.org.

De nouveaux ajouts au Darwin Core supportent l’aggrégation des jeux de données d’événements. Le ‘noyau Evénement’ nouvellement introduit place l’événement d’échantillonage au centre du jeu de données simplifié et lie son protocole, effort et mesures aux occurrences d’espèces dérivées des événements d’échantillonage qui sont ajoutées en tant qu’extension séparée dans le schema en étoile 1-à-N du standard.

En conséquence, les chercheurs peuvent analyser des enregistrements plus complexes et quantitativement plus riches et les combiner avec d’autres sur des organismes isolés ou des taxons individuels. Ces changements peuvent même conduire à améliorer la qualité et l’utilité des jeux de données déjà publiés sur GBIF.org qui dérivent d’enquêtes et de recensements plus complexes.

L’espoir est qu’en mêlant ces diverses sources de données, plutôt que de limiter ou de prescrire leurs usages,cela encourage leur découverte et leur réutilisation et pourquoi pas révèlent des relations supérieures ou des idées qui n’étaient pas apparentes au regard des enregistrements individuels.

Par où commencer?

Le moyen le plus efficace de préparer et publier des jeux de données basés sur du Darwin Core est l’ IPT. EU BON et d’autres partenaires ont contribuer de manière significative aux changements nécessaires au support de cette nouvelle classe de jeux de données. Les détenteurs de données qui ont des programme de surveillance et des projets d’échantillonage récurrents peuvent aussi programmer des cycles de publication automatiques grâce à l’IPT multilingue.

Les éléments nouveaux dans du noyau événement

L’ ajout du ‘noyau événement’ au standard du Darwin Core contient plusieurs nouveaux termes particulièrement destinés aux données d’échantillonage et desurveillance.

  • eventID: un identifiant unique pour l’événement au sein du jeu de données.
  • parentEventID: un identifiant qui permet de regrouper des événements
  • samplingProtocol: le nom, la référence, la description de la méthode ou du protocole utilisé durant l’événement d’échantillonage.
  • sampleSizeValue: valeur numérique de la taille (durée, longueur, surface ou volume) de l’échantillonage durant l’événement. Doit être utilisée de concert avec sampleSizeUnit
  • sampleSizeUnit: unité de mesure de la taille (sampleSizeValue)
  • organismQuantity: valeur numérique de la quantité d’organismes. Doit être utilisée de concert avec organismQuantityType
  • organismQuantityType: le type du système de quantification utilisé pour la quantité d’organismes

_Nos remerciements à André Heughebaert, Belgian Biodiversity Platform pour le soutien de la traduction.