Principes et méthodes de nettoyage de données

Download

Ce manuel traite le sujet de l'amélioration de la qualité des données dans les bases de données primaires d'occurrence d'espèces, d’un point de vue géographique et taxonomique.

Abstract

Le nettoyage des données est une partie essentielle de la Chaîne de la Gestion des Informations comme mentionné dans le document Principes de la Qualité des Données (Chapman 2005a). Comme cela y est mis en valeur, la prévention des erreurs est une tâche d’importance bien supérieure à l’identification et au nettoyage, parce qu’il est moins coûteux et plus efficace d’éviter les erreurs que d’essayer de les trouver et de les corriger ultérieurement. Peu importe à quel point le procédé d’encodage de donnée est efficace, des erreurs surviendront toujours et c’est pourquoi la validation et la correction des données ne doivent pas être ignorées. L’identification des erreurs, la validation et le nettoyage jouent un rôle-clé, en particulier lorsqu’il s’agit de données anciennes (ex: données de musée ou d’herbier rassemblées au court des 300 dernières années), et par conséquent, la prévention des erreurs ainsi que le nettoyage des informations devraient être intégrés à la politique de gestion des informations au sein d’un organisme.< br/>
Un résultat importante du nettoyage des données est de permettre d’identifier les causes basiques des erreurs détectées, et, en utilisant cette information afin d’améliorer la saisie d’information, d’éviter que ces erreurs se reproduisent.
Ce document examinera les méthodes de prévention ainsi que d'identification et de nettoyage des erreurs dans les bases de données de recueils biologiques primaires. Il traitera de directives, de méthodologies et d’outils qui peuvent aider les musées et les herbiers à appliquer de meilleurs procédés lors de la numérisation, la documentation ou la validation des informations. Mais tout d’abord, il établira un ensemble de principes simples qui devraient être suivis dans n’importe quel exercice de nettoyage d’information.

Authors

Chapman, A.D.

Contributors

Trad: Roosen, A. (avec la collaboration du Theeten, F et Chenin, E.)

Publisher

GBIF Secretariat

Rights

Cette travail est publié sous une licence Creative Commons Paternité 3.0
http://creativecommons.org/licenses/by/3.0/deed.fr

Rights holder

GBIF Secretariat

Citations

Chapman, A. D. (2005). Principes et méthodes de nettoyage de données, version 1.0. Trad. Roosen, A. Copenhague: Global Biodiversity Information Facility, 90 pp. Disponible en ligne sur http://www.gbif.org/document/80677