¿Qué es Darwin Core y por qué es importante?

El estándar Darwin Core (DwC) ofrece un marco de trabajo estable, sencillo y flexible para recopilar datos de biodiversidad provenientes de fuentes diferentes y variables.

<a href="/occurrence/899939168">Pinzón vegetariano <i>(Platyspiza crassirostris)</i></a> por Brian Gratwicke bajo licencia <a href="http://creativecommons.org/licenses/by/4.0/">CC BY 4.0</a>. — Pinzón vegetariano *(Platyspiza crassirostris)* por Brian Gratwicke bajo licencia CC BY 4.0.

Las colecciones de historia natural, los proyectos de monitoreo ambiental, sociedades que recolectan datos, los proyectos de ciencia ciudadana y otros; todos ellos contienen datos valiosos de la biodiversidad mundial. Recolectan y administran la información en muchos sistemas y entornos diferentes y con una amplia variabilidad, la cual depende del tipo de información capturada y almacenada para cada registro individual.

Entonces, ¿cómo podemos integrar, de una manera sencilla y eficiente, esta variedad de juegos de datos para que científicos, analistas y responsables políticos puedan utilizarlos en investigación y política?

El estándar Darwin Core (DwC) ofrece un marco de trabajo estable, sencillo y flexible para recopilar datos de biodiversidad provenientes de fuentes diferentes y variables. Darwin Core fue desarrollado originalmente por la comunidad de Biodiversity Information Standards (antes TDWG). Desempeña un papel fundamental al compartir, usar y reusar los datos de biodiversidad de libre acceso y en la actualidad representa la gran mayoría de los cientos de millones de registros de presencia de especies disponibles a través de GBIF.org.

En la práctica, el uso de Darwin Core gira en torno a un formato de archivo estándar, Darwin Core Archive (DwC-A). Este paquete comprimido (un archivo ZIP) contiene archivos de texto interconectados que permite a los proveedores de datos compartir sus datos utilizando una terminología común. Esta estandarización no sólo simplifica el proceso de publicación de los juegos de datos de datos de biodiversidad sino que también simplifica el descubrimiento, investicación, evaluación y la comparación de los juegos de datos a medida que buscan respuestas, tanto en las intensivas investigaciones de hoy en día como en interrogantes políticos.

Recursos adicionales

Wieczorek J, Bloom D, Guralnick R, Blum S, Döring M, Giovanni R, et al. (2012) Darwin Core: An Evolving Community-Developed Biodiversity Data Standard. PLoS ONE 7(1): e29715. doi:10.1371/journal.pone.0029715.
iOBIS Darwin Core manual
Darwin Core terms (via Gcube Wiki)

¿Que hay en un archivo?

Cuando se prepara una versión de un Darwin Core Archive, los publicadores reestructuran y coordinan la información dentro de archivos de textos pequeños, pero estructurados. Uno de estos archivos es el “núcleo” y contiene un registro separado para cada uno de los elementos incluidos en el archivo. También se pueden incluir otros archivos, que conforman las “extensiones”. Éstos contienen información adicional vinculada con los registros del archivo del núcleo. Los archivos de las extensiones permiten establecer el modelo relacional de uno a muchos.

Dependiendo de cuánta información contiene la fuente de datos (y de cómo se desee compartir) los editores pueden crear un Darwin Core Archive con alguno de estos tres núcleos:

un núcleo Taxon (taxón de diferente rango), que enumera un conjunto de especies, normalmente provenientes de una misma región o que comparten características en común
un núcleo Occurrence (presencia), que enumera una serie de tiempos y localizaciones en los que se ha registrado una especie en particular
un núcleo Event (evento), que enumera estudios de campo (incluyendo los protocolos utilizados, el tamaño de muestra y la ubicación para cada uno).

En el caso de un núcleo Event, normalmente uno de los archivos de extensión contiene los elementos en un núcleo Occurrences, lo que permite la inclusión de muchos registros de observaciones como parte de un sólo estudio de campo.

Para terminar, cada archivo contiene dos o más elementos que ayudan, tanto a humanos como a máquinas, a interpretar los datos. El primero, es un archivo descriptor (meta.xml) el cual define la estructura precisa y las relaciones entre en el núcleo y las extensiones. El segundo, un archivo complementario de metadatos, describe el juego de datos contenido en el archivo, típicamente tiene un formato EML.xml (Ecological Metadata Languaje). El IPT (Integrated Publishing Toolkit) desarrollado por GBIF, produce estos archivos de manera automática para los usuarios.

Compartir datos de muestreo y del monitoreo de especies con el nucleo Evento

Gracias al esfuerzo para rastrear los cambios en los patrones de biodiversidad a lo largo del tiempo y del espacio han aumentado la cantidad de información disponible a través de muestreos y de los programas de monitoreo. Además de contar con métodos más precisos que los que generan datos de “sólo presencia”, los juegos de datos provenientes de muestreos recogen detalles más complejos sobre la cantidad y frecuencia de las especies.

Mediante la introducción frecuente de mediciones repetidas en los mismos lugares, los datos de muestreo de investigaciones ecológicas y ambientales son los que mejor detectan los cambios y las tendencias en las poblaciones de especies, por lo que son muy relevantes para comprender el alcance y la velocidad del cambio global.

Sin embargo, para aprovechar al máximo estos datos diversos y asegurar su contribución eficiente a análisis científicos y resultados de políticas más eficaces, los investigadores necesitan acceder fácilmente a ellos en un formato consistente y compatible.

El estándar Darwin Core se ha convertido en el estándar de acceso abierto más utilizado para datos de biodiversidad. Desarrollado para documentar y compartir, de manera sencilla, información sobre presencia de especies, ya sea en el campo como en la colección de un museo; el estándar ha posibilitado la integración de cientos de millones de registros a través de GBIF.org.

Las novedades del Darwin Core que se detallan a continuación facilitan la incorporación de juegos de datos de muestreo. El término “Event core”, añadido recientemente, coloca al evento de muestreo en el centro de los juegos de datos simplificados y vincula su protocolo, esfuerzo y medidas con los registros de especies provenientes de los muestreos, las cuales se anexan como una extensión por separado en el esquema estrella del estándar (uno a muchos).

Como resultado, los investigadores ahora pueden acceder a registros más complejos, enriquecidos cuantitativamente para sus análisis y combinarlos junto a otros, ya sea con organismos únicos o taxones individuales. Estos cambios podrían incluso conducir a mejoras en la calidad y utilidad de los juegos de datos ya publicados en GBIF.org que se derivan de encuestas y censos más complejos.

Se espera que la combinación de estas variadas fuentes de datos, en lugar de limitar o determinar sus usos, fomente su exploración y reutilización y quizás ponga de manifiesto relaciones y conocimientos más profundos, que no son evidentes examinando los registros individuales.

¿Cómo comenzar?

La forma más eficiente de preparar y publicar juegos de datos basados en Darwin Core es mediante el IPT. EU BON y otros socios, que proporcionan contribuciones vitales para poder respaldar esta nueva clase de juegos de datos. Los proveedores de datos con programas de monitoreo activos y programas de muestreo también pueden configurar automáticamente ciclos de publicación programados en el ITP multilingüe.

Lo que es nuevo en el DwC-A ‘Event Core’

La inclusión del ‘event core’ al estándar Darwin Core incluye una serie de nuevos términos, perfectamente aplicables a los datos de muestreo y monitoreo.

eventID: identificador específico para el evento en el juego de datos
parentEventID: identificador que agrupa eventos
samplingProtocol: nombre, referencia, descripción del método o protocolo utilizado durante el evento de muestreo
sampleSizeValue: valor numérico para el tamaño (duración, longitud, área o volumen) de la muestra en un evento de monitoreo. Debe tener un sampleSizeUnit correspondiente
sampleSizeUnit: es la unidad de medida del tamaño (sampleSizeValue)
organismQuantity: es el número para la cantidad de organismos. Debe tener su organismQuantityType correspondiente
organismQuantityType: es el tipo de sistema de cuantificación utilizado para estimar la cantidad de organismos