O que é o Darwin Core e porque ele é importante?

O padrão Darwin Core (DwC) oferece uma estrutura estável, direta e flexível para compilar dados de biodiversidade a partir de fontes variadas e variáveis.

<a href="/occurrence/899939168"><i>Platyspiza crassirostris</i></a> by Brian Gratwicke licensed under <a href="http://creativecommons.org/licenses/by/4.0/">CC BY 4.0</a>. — *Platyspiza crassirostris* by Brian Gratwicke licensed under CC BY 4.0.

Coleções de história natural, programas de monitorização ambiental, sociedades de ciência-cidadã, projectos de investigadores e outros, possuem dados valiosos sobre a biodiversidade do mundo. Eles coletam e gerenciam informações em diversos sistemas e ambientes, que variam muito, dependendo do tipo de detalhes que são registados e armazenados para qualquer registo individual.

Então, como podemos integrar estes diversos conjuntos de dados de maneira mais simples e eficiente para que cientistas, analistas e tomadores de decisão possam usá-los em investigação e política?

O Darwin Core Standard (DwC) oferece uma estrutura estável, direta e flexível para compilar dados de biodiversidade a partir de fontes variadas e variáveis. Originalmente desenvolvido pela comunidade de Padrões de Informação da Biodiversidade (TDWG), o Darwin Core é "um padrão de dados de biodiversidade desenvolvido pela comunidade e em evolução". Ele desempenha um papel fundamental na partilha, uso e reutilização de dados de biodiversidade de acesso aberto e hoje é responsável pela grande maioria das centenas de milhões de registos de ocorrência de espécies, disponíveis no GBIF.org.

Na prática, o uso do Darwin Core provém de um formato de arquivo padrão, o Darwin Core Archive (DwC-A). Este pacote compacto (um arquivo ZIP) contém arquivos de texto interconectados e permite que publicadores de dados partilhem seus dados usando uma terminologia comum. Essa padronização não apenas simplifica o processo de publicação de conjuntos de dados de biodiversidade, mas também facilita a descoberta, a investigação, a avaliação e a comparação de conjuntos de dados à medida que buscam respostas para as investigações e questões de políticas atuais, com uso intensivo de dados.

Recursos adicionais

Wieczorek J, Bloom D, Guralnick R, Blum S, Döring M, Giovanni R, et al. (2012) Darwin Core: An Evolving Community-Developed Biodiversity Data Standard. PLoS ONE 7(1): e29715. doi:10.1371/journal.pone.0029715.
iOBIS Darwin Core manual
Darwin Core terms (via Gcube Wiki)

O que há em um ficheiro?

Ao preparar uma versão do Darwin Core Archive a partir de seus dados de origem, os publicadores reestruturam e simplificam as informações em uma coleção pequena, mas estruturada, de arquivos de texto. Um destes ficheiros é o ficheiro "core" e contém um registo separado para cada um dos itens incluídos no ficheiro. Outros ficheiros de "extensão" também podem ser incluídos. Eles contém informações adicionais vinculadas aos registos no ficheiro principal. Os ficheiros de extensão permitem que diferentes ficheiros sejam relacionadas a um ficheiro principal.

Dependendo da quantidade de informações que os dados de origem contém e do quanto que deseja-se partilhar, os publicadores podem criar um Darwin Core Archive com um dos três núcleos:

Núcleo de táxon, que lista um conjunto de espécies, geralmente provenientes da mesma região ou que partilham características comuns.
Núcleo de ocorrência, que lista um conjunto de horários e locais em que determinadas espécies foram registadas.
Núcleo de evento, que lista os eventos de campo (incluindo os protocolos usados, o tamanho da amostra e a localização de cada um).

No caso de um núcleo de evento, um ficheiro de extensão geralmente contém os elementos exibidos em um núcleo de ocorrência, o que permite incluir muitos registos de observação como parte de um único estudo de campo planeado.

Finalmente, cada ficheiro contém mais duas peças que ajudam as máquinas e os humanos a interpretar os dados. O primeiro, um ficheiro de descrição (meta.xml), define a estrutura e as relações necessárias entre o núcleo e as extensões. O segundo, um ficheiro de metadados complementar, descreve os conjuntos de dados contidos no arquivamento, normalmente em EML.xml (Ecological Metadata Language),embora o GBIF Integrated Publishing Toolkit produza estes ficheiros automaticamente para os utilizadores.

Partilha de dados de monitorização e colheita de espécies com o Núcleo de Evento

Esforços para rastrear mudanças nos padrões de biodiversidade no espaço e no tempo aumentaram a quantidade de informações sobre espécies disponíveis por meio de programas de colheitas e monitorização. Além de ter métodos descritos com maior precisão, do que dados "somente de presença", esses conjuntos de dados baseados em colheitas capturam detalhes mais ricos e mais complexos sobre as quantidades e a frequência das espécies.

Com a inclusão frequente de medições repetidas nos mesmos locais, dados de eventos de colheitas provenientes de estudos ecológicos e ambientais, são melhores para detetar mudanças e tendências nas populações de espécies - e críticos para compreender o escopo e a velocidade da alteração global.

Mas, para melhorar o aproveitamento destes diversos dados e garantir sua contribuição eficiente para análises científicas e resultados de políticas mais precisos, os investigadores precisam de ter fácil acesso a eles, em um formato consistente e compatível.

O Darwin Core Standard tornou-se o padrão de acesso aberto mais amplamente utilizado para dados de biodiversidade. Desenvolvido para fornecer uma maneira simples de documentar e partilhar informações sobre ocorrências de espécies, seja no campo ou em uma coleção de museu, a norma tornou possível integrar centenas de milhões de registos através do GBIF.org.

Adições recentes ao Darwin Core detalhadas abaixo suportam a agregação de conjuntos de dados de evento de colheita. O recém-introduzido 'Event core' coloca o evento de colheita no centro do conjunto de dados simplificado e vincula seu protocolo, esforço e medidas às ocorrências de espécies derivadas dos eventos de colheita, que são anexados como uma extensão separada no padrão one-to-many star schema.

Como resultado, investigadores podem ter acesso a registos mais complexos e ricos para analises e poderão combiná-los com outros que estejam focados taxa individual ou irganismos únicos. Essas mudanças poderão guiar para um melhor uso e qualidade de conjuntos de dados já publicados através do GBIF.org e que vieram de censos e estudos mais completos.

Espera-se que a mistura dessas variadas fontes de dados, em vez de limitar ou prescrever seus usos, encoraje sua descoberta e reutilização - e talvez até revele relacionamentos e percepções de nível mais alto que não seriam aparentes ao examinar registos individuais.

Como começar

A maneira mais eficiente para publicação de conjuntos de dados em Darwin Core é através do Integrated Publishing Toolkit do GBIF. EU BON e outros parceiros contribuiram para alterações essenciais para suportar essa nova classe de conjuntos de dados. Detentores de dados com programas de monitorização podem também configurar automaticamente ciclos de através do IPT multilingua.

O que há de novo no Núcleo de Evento do DwC-A

A adição do "Núcleo de evento" ao padrão Darwin Core incluiu diversos termos que são altamente aplicáveis para dados de colheita e de monitorização.

eventID: identificador especifico para um evento de um conjunto de dados
parentEventID: identificador que agrupa os eventos
samplingProtocol: nome, referência, descrição do método ou protocolo utilizado durante um evento de colheita
sampleSizeValue: valor numérico para o tamanho(duração, area ou volume) de uma amostra num evento de colheita. Deve estar acompanhado do sampleSizeUnit
sampleSizeUnit: unidade de medida do tamanho (sampleSizeValue)
organismQuantity: número para quantidade de organismos. Deve ser acompanhado pelo organismQuantityType
organismQuantityType: tipo de sistema de quantificação de organismos