Skip to main content

    Co je Darwin Core a proč je důležité?

    Darwin Core Standard (DwC) nabízí stabilní, jednoduchý a flexibilní rámec pro shromažďování dat o biologické rozmanitosti z různorodých a proměnlivých zdrojů.

    <a href="/occurrence/899939168"><i>Platyspiza crassirostris</i></a> by Brian Gratwicke licensed under <a href="http://creativecommons.org/licenses/by/4.0/">CC BY 4.0</a>.

    Přírodovědné sbírky, programy monitoringu životního prostředí, záznamové společnosti, projekty občanských vědců a další subjekty uchovávají cenné údaje o světové biologické rozmanitosti. Shromažďují a spravují své informace v mnoha různých systémech a prostředích a značně se liší v závislosti na tom, jaké údaje jsou u jednotlivých záznamů zachyceny a uloženy.

    Jak tedy co nejjednodušeji a nejefektivněji integrovat tyto různorodé datové sady, aby je vědci, analytici a tvůrci politik mohli využívat ve výzkumu a politice?

    Darwin Core Standard (DwC) nabízí stabilní, jednoduchý a flexibilní rámec pro shromažďování údajů o biologické rozmanitosti z různorodých a proměnlivých zdrojů. Darwin Core, původně vyvinutý komunitou TDWG (Biodiversity Information Standards), je"vyvíjející se datový standard pro biologickou rozmanitost vyvinutý komunitou". Hraje zásadní roli ve sdílení, využívání a opakovaném použití volně přístupných dat o biologické rozmanitosti a dnes představuje naprostou většinu ze stovek milionů záznamů o výskytu druhů, které jsou k dispozici prostřednictvím GBIF.org.

    V praxi se používání Darwin Core točí kolem standardního formátu souborů, Darwin Core Archive (DwC-A). Tento kompaktní balíček (soubor ZIP) obsahuje vzájemně propojené textové soubory a umožňuje vydavatelům dat sdílet jejich data pomocí společné terminologie. Tato standardizace nejen zjednodušuje proces publikování datových sad o biologické rozmanitosti, ale také usnadňuje uživatelům objevování, vyhledávání, vyhodnocování a porovnávání datových sad při hledání odpovědí na dnešní výzkumné a politické otázky, které jsou náročné na data.

    Další zdroje

    Co je v archivu?

    Při přípravě verze Darwin Core Archive ze zdrojových dat vydavatelé restrukturalizují a zjednodušují informace do malé, ale strukturované sbírky textových souborů. Jeden z těchto souborů je "základní" soubor a obsahuje samostatný záznam pro každou z položek obsažených v archivu. Součástí mohou být i další "rozšiřující" soubory. Ty obsahují další informace spojené se záznamy v základním souboru. Rozšiřující soubory umožňují archivu modelovat vztahy typu many-to-one.

    V závislosti na tom, kolik informací zdrojová data obsahují a kolik jich chtějí sdílet, mohou vydavatelé vytvořit archiv Darwin Core s jedním ze tří jader:

    • jádro taxonu, které uvádí soubor druhů, obvykle pocházejících ze stejné oblasti nebo majících společné znaky
    • jádro výskytu, které obsahuje seznam časů a míst, kde byly určité druhy zaznamenány
    • jádro události, které obsahuje seznam terénních studií (včetně použitých protokolů, velikosti vzorku a místa konání).

    V případě jádra události obsahuje jeden rozšiřující soubor obvykle prvky zobrazené v jádru výskytu, což umožňuje zahrnout mnoho záznamů pozorování v rámci jedné plánované terénní studie.

    A konečně, každý archiv obsahuje další dvě části, které pomáhají strojům i lidem při interpretaci dat. První z nich, deskriptorový soubor (meta.xml), definuje přesnou strukturu a vztahy mezi jádrem a případnými rozšířeními. Druhý, doplňkový metadatový soubor, popisuje datové sady obsažené v archivu, obvykle v jazyce ekologických metadat (EML.xml) - ačkoli integrovaný publikační nástroj GBIF vytváří tyto soubory pro své uživatele automaticky.

    Sdílení dat z monitorování druhů a odběru vzorků s Event Core

    Úsilí o sledování změn ve struktuře biologické rozmanitosti v prostoru a čase zvýšilo množství informací o druzích, které jsou k dispozici prostřednictvím programů odběru vzorků a monitorování. Kromě toho, že tyto datové soubory založené na vzorcích mají přesněji popsané metody než údaje "pouze o přítomnosti", zachycují bohatší a komplexnější podrobnosti o množství a četnosti druhů.

    Díky častému opakovanému měření na stejných místech jsou data z ekologických a environmentálních výzkumů lépe schopna odhalit změny a trendy v populacích druhů - a mají zásadní význam pro pochopení rozsahu a rychlosti globálních změn.

    Aby však bylo možné tyto různorodé údaje co nejlépe využít a zajistit jejich účinný přínos pro přesnější vědecké analýzy a politické výsledky, potřebují k nim výzkumní pracovníci snadný přístup v konzistentním a kompatibilním formátu.

    Darwin Core Standard se stal nejrozšířenějším standardem pro otevřený přístup k údajům o biologické rozmanitosti. Tento standard byl vyvinut s cílem poskytnout jednoduchý způsob dokumentace a sdílení informací o výskytu druhů, ať už v terénu nebo v muzejních sbírkách, a umožnil integrovat stovky milionů záznamů prostřednictvím GBIF.org.

    Nedávné doplňky jádra Darwin, které jsou podrobně popsány níže, podporují agregaci souborů dat o událostech při vzorkování. Nově zavedené "Event core" umisťuje událost odběru vzorků do středu zjednodušené datové sady a propojuje její protokol, úsilí a měření s výskytem druhů odvozeným z událostí odběru vzorků, které jsou připojeny jako samostatné rozšíření v hvězdicovém schématu standardu one-to-many.

    Vědci tak nyní mohou využívat komplexnější a kvantitativně bohatší záznamy pro analýzy a kombinovat je s jinými záznamy zaměřenými na jednotlivé organismy nebo taxony. Tyto změny by mohly vést i ke zlepšení kvality a užitečnosti datových sad již zveřejněných na GBIF.org, které pocházejí ze složitějších průzkumů a sčítání.

    Doufáme, že propojení těchto různorodých zdrojů dat spíše než k omezování nebo předepisování jejich použití přispěje k jejich objevování a opětovnému využití - a možná dokonce odhalí vztahy a poznatky vyšší úrovně, které by nebyly zřejmé z prozkoumání jednotlivých záznamů.

    Jak začít

    Nejefektivnějším způsobem přípravy a publikování datových sad založených na Darwin Core je použití integrovaného publikačního nástroje GBIF. EU BON a další partneři zásadně přispěli ke změnám potřebným pro podporu této nové třídy datových sad. Držitelé dat s probíhajícími monitorovacími programy a projekty odběru vzorků mohou také konfigurovat automaticky naplánované cykly zveřejňování na vícejazyčném IPT.

    Novinky v DwC-A event core

    Doplnění "event core" do standardu Darwin Core zahrnuje několik nových termínů, které jsou velmi dobře použitelné pro data založená na vzorcích a monitorování.

    • eventID: identifikátor specifický pro událost v souboru dat
    • parentEventID: identifikátor, který seskupuje události
    • samplingProtocol: název, odkaz, popis metody nebo protokolu použitého při odběru vzorků
    • sampleSizeValue: číselná hodnota pro velikost (trvání, délku, plochu nebo objem) vzorku při odběru vzorků. Musí mít odpovídající sampleSizeUnit
    • sampleSizeUnit: měrná jednotka velikosti (sampleSizeValue)
    • organismQuantity: číslo pro množství organismů. Musí mít odpovídající organismQuantityType
    • organismQuantityType: typ kvantifikačního systému použitého pro množství organismů