Co je Darwin Core a proč je důležité?
Darwin Core Standard (DwC) nabízí stabilní, jednoduchý a flexibilní rámec pro shromažďování dat o biologické rozmanitosti z různorodých a proměnlivých zdrojů.

Přírodovědné sbírky, programy monitoringu životního prostředí, záznamové společnosti, projekty občanských vědců a další subjekty uchovávají cenné údaje o světové biologické rozmanitosti. Shromažďují a spravují své informace v mnoha různých systémech a prostředích a značně se liší v závislosti na tom, jaké údaje jsou u jednotlivých záznamů zachyceny a uloženy.
Jak tedy co nejjednodušeji a nejefektivněji integrovat tyto různorodé datové sady, aby je vědci, analytici a tvůrci politik mohli využívat ve výzkumu a politice?
Darwin Core Standard (DwC) nabízí stabilní, jednoduchý a flexibilní rámec pro shromažďování údajů o biologické rozmanitosti z různorodých a proměnlivých zdrojů. Darwin Core, původně vyvinutý komunitou TDWG (Biodiversity Information Standards), je"vyvíjející se datový standard pro biologickou rozmanitost vyvinutý komunitou". Hraje zásadní roli ve sdílení, využívání a opakovaném použití volně přístupných dat o biologické rozmanitosti a dnes představuje naprostou většinu ze stovek milionů záznamů o výskytu druhů, které jsou k dispozici prostřednictvím GBIF.org.
V praxi se používání Darwin Core točí kolem standardního formátu souborů, Darwin Core Archive (DwC-A). Tento kompaktní balíček (soubor ZIP) obsahuje vzájemně propojené textové soubory a umožňuje vydavatelům dat sdílet jejich data pomocí společné terminologie. Tato standardizace nejen zjednodušuje proces publikování datových sad o biologické rozmanitosti, ale také usnadňuje uživatelům objevování, vyhledávání, vyhodnocování a porovnávání datových sad při hledání odpovědí na dnešní výzkumné a politické otázky, které jsou náročné na data.
Další zdroje
- Wieczorek J, Bloom D, Guralnick R, Blum S, Döring M, Giovanni R a další (2012) Darwin Core: datový standard pro biodiverzitu vyvíjený komunitou. PLoS ONE 7(1): e29715. doi:10.1371/journal.pone.0029715.
- Příručka OBIS Darwin Core
- Termíny Darwin Core (přes Gcube Wiki)
Co je v archivu?
Při přípravě verze Darwin Core Archive ze zdrojových dat vydavatelé restrukturalizují a zjednodušují informace do malé, ale strukturované sbírky textových souborů. Jeden z těchto souborů je "základní" soubor a obsahuje samostatný záznam pro každou z položek obsažených v archivu. Součástí mohou být i další "rozšiřující" soubory. Ty obsahují další informace spojené se záznamy v základním souboru. Rozšiřující soubory umožňují archivu modelovat vztahy typu many-to-one.
V závislosti na tom, kolik informací zdrojová data obsahují a kolik jich chtějí sdílet, mohou vydavatelé vytvořit archiv Darwin Core s jedním ze tří jader:
- jádro taxonu, které uvádí soubor druhů, obvykle pocházejících ze stejné oblasti nebo majících společné znaky
- jádro výskytu, které obsahuje seznam časů a míst, kde byly určité druhy zaznamenány
- jádro události, které obsahuje seznam terénních studií (včetně použitých protokolů, velikosti vzorku a místa konání).
V případě jádra události obsahuje jeden rozšiřující soubor obvykle prvky zobrazené v jádru výskytu, což umožňuje zahrnout mnoho záznamů pozorování v rámci jedné plánované terénní studie.
A konečně, každý archiv obsahuje další dvě části, které pomáhají strojům i lidem při interpretaci dat. První z nich, deskriptorový soubor (meta.xml), definuje přesnou strukturu a vztahy mezi jádrem a případnými rozšířeními. Druhý, doplňkový metadatový soubor, popisuje datové sady obsažené v archivu, obvykle v jazyce ekologických metadat (EML.xml) - ačkoli integrovaný publikační nástroj GBIF vytváří tyto soubory pro své uživatele automaticky.
Sdílení dat z monitorování druhů a odběru vzorků s Event Core
Úsilí o sledování změn ve struktuře biologické rozmanitosti v prostoru a čase zvýšilo množství informací o druzích, které jsou k dispozici prostřednictvím programů odběru vzorků a monitorování. Kromě toho, že tyto datové soubory založené na vzorcích mají přesněji popsané metody než údaje "pouze o přítomnosti", zachycují bohatší a komplexnější podrobnosti o množství a četnosti druhů.
Díky častému opakovanému měření na stejných místech jsou data z ekologických a environmentálních výzkumů lépe schopna odhalit změny a trendy v populacích druhů - a mají zásadní význam pro pochopení rozsahu a rychlosti globálních změn.
Aby však bylo možné tyto různorodé údaje co nejlépe využít a zajistit jejich účinný přínos pro přesnější vědecké analýzy a politické výsledky, potřebují k nim výzkumní pracovníci snadný přístup v konzistentním a kompatibilním formátu.
Darwin Core Standard se stal nejrozšířenějším standardem pro otevřený přístup k údajům o biologické rozmanitosti. Tento standard byl vyvinut s cílem poskytnout jednoduchý způsob dokumentace a sdílení informací o výskytu druhů, ať už v terénu nebo v muzejních sbírkách, a umožnil integrovat stovky milionů záznamů prostřednictvím GBIF.org.
Nedávné doplňky jádra Darwin, které jsou podrobně popsány níže, podporují agregaci souborů dat o událostech při vzorkování. Nově zavedené "Event core" umisťuje událost odběru vzorků do středu zjednodušené datové sady a propojuje její protokol, úsilí a měření s výskytem druhů odvozeným z událostí odběru vzorků, které jsou připojeny jako samostatné rozšíření v hvězdicovém schématu standardu one-to-many.
Vědci tak nyní mohou využívat komplexnější a kvantitativně bohatší záznamy pro analýzy a kombinovat je s jinými záznamy zaměřenými na jednotlivé organismy nebo taxony. Tyto změny by mohly vést i ke zlepšení kvality a užitečnosti datových sad již zveřejněných na GBIF.org, které pocházejí ze složitějších průzkumů a sčítání.
Doufáme, že propojení těchto různorodých zdrojů dat spíše než k omezování nebo předepisování jejich použití přispěje k jejich objevování a opětovnému využití - a možná dokonce odhalí vztahy a poznatky vyšší úrovně, které by nebyly zřejmé z prozkoumání jednotlivých záznamů.
Jak začít
Nejefektivnějším způsobem přípravy a publikování datových sad založených na Darwin Core je použití integrovaného publikačního nástroje GBIF. EU BON a další partneři zásadně přispěli ke změnám potřebným pro podporu této nové třídy datových sad. Držitelé dat s probíhajícími monitorovacími programy a projekty odběru vzorků mohou také konfigurovat automaticky naplánované cykly zveřejňování na vícejazyčném IPT.
Novinky v DwC-A event core
Doplnění "event core" do standardu Darwin Core zahrnuje několik nových termínů, které jsou velmi dobře použitelné pro data založená na vzorcích a monitorování.
- eventID: identifikátor specifický pro událost v souboru dat
- parentEventID: identifikátor, který seskupuje události
- samplingProtocol: název, odkaz, popis metody nebo protokolu použitého při odběru vzorků
- sampleSizeValue: číselná hodnota pro velikost (trvání, délku, plochu nebo objem) vzorku při odběru vzorků. Musí mít odpovídající sampleSizeUnit
- sampleSizeUnit: měrná jednotka velikosti (sampleSizeValue)
- organismQuantity: číslo pro množství organismů. Musí mít odpovídající organismQuantityType
- organismQuantityType: typ kvantifikačního systému použitého pro množství organismů