よくある質問(FAQ)
GBIFとGBIF.orgに関するよくあるご質問への回答
I have occurrence data/photos/videos of species x that I would like to submit to GBIF. (How) can I do so?
I'm having issues connecting to and accessing GBIF services or network—what might be wrong and what can I do?
To have events related to a project show up on the project's page, please suggest the event and make sure to include your project ID under GBIF-funded projects.
You can access a full history of all previous downloads in your GBIF.org account. After logging in, click you username in the upper-right corner and then click the "Downloads" tab. Downloads are shown in reverse chronological order, i.e., with the most recent downloads at the top.
All GBIF servers have IP addresses in the range 130.225.43.0/24, and data publishers and hosts should adjust their firewall filters make sure that access is allowed from this range.
These would be user-defined, integrated data products and communication tools derived from these products that could include
- Data summary tables indicating population trends, species richness and community composition
- Map products such as species distributions or geographical data gap analyses
- Indicators informing Sustainable Development Goals or CBD targets
GBIF.orgでの検索時に表示されるオカレンスと、大規模なダウンロード情報の保管ファイル(約100,000レコード以上)の生成に使用されるオカレンスは、2つの別々なデータストアから取り出しています。 ウェブサイトは第一のデータストアで実行され、ここでは常に最新のデータが保持されます。一方、大量のダウンロードの生成に使用されるデータストアは1日に1回だけ同期されます。
つまり、大量のダウンロードに含まれるデータは、最後の同期以降(最大で24時間後まで)にレコードが追加・削除された場合、ウェブサイトの検索で返されるデータと若干異なる可能性があります。
これは簡単な質問のように思えるかもしれませんが、答えはそうではありません。 GBIFがホームページに種の数を表示しない理由の詳細については、この記事を参照してください。
この形式はTDWG標準であり、豊富な情報が含まれています。これは、出版者が共有したオリジナルデータと、データが品質管理の処理を経た後の解釈されたビューを含むZIPファイルです。これは単純なCSVよりも豊富な形式ですが、データの最も完全なデータ一式を見ることができます。追加のファイルは、画像へのリンクなどの補足情報を提供します(実際の画像ファイルではありません)。
こちらもご覧ください:GBIFダウンロードzipファイルの内容は何ですか?
このシンプルな形式は、タブで区切られた、最も一般的に使用される列を持つデータの表示を提供します。この表には、解釈と品質管理の処理が行われた後のデータのみが含まれています。 Microsoft Excelなどのツールを使用して、この形式を読み取ることができます。
こちらもご覧ください:GBIF.orgからダウンロードしたタブ区切りのCSVファイルをExcelで開くにはどうすればよいですか?
右上隅にある吹き出し(
送信されたフィードバックはすべてGithub上で公開されており、内容を見ることができます。
これは、分類がGBIFバックボーン分類法からは削除されていますが、識別子は履歴維持の目的で保持されていることを意味します。分類群は、たとえば、重複するエントリーや、データソースのチェックリストからの削除などの理由で削除されることがあります。
GBIFは、一意のデジタルオブジェクト識別子(DOI)をすべてのデータセットとダウンロードされたオカレンスデータセットに割り当てます。データが使用される場合、DOIの引用についてのガイドラインに従って、再現性を確保しながら、データセットの所有者にクレジットを付与するという簡単で一貫した方法が保証されます。基になったデータが利用できなくなった場合でも、DOIは変わらずにデータセットまたはダウンロードページに誘導されます。
GBIFは2015年2月3日にDOIの発行を開始しました。この日付より前にリクエストされたダウンロードにはDOIがありませんが、古いダウンロードを引用したい場合には、helpdesk@gbif.org までご連絡いただければ、適切なDOIを割り当てさせていただきます。
ダウンロードファイルは初めに6か月間保存されます。 6か月以降、CSVまたはDarwin Coreファイルは削除されることがありますが、ダウンロードに関する情報はずっと保持されます。これには、DOI、使用されたすべての検索情報、日付と時刻、レコード数、レコードの取得元のデータセット、ライセンス、およびメタデータのEMLが含まれます。
ダウンロードを6か月以上保存しておきたい場合には、ダウンロードの情報ページで延長をリクエストできます。
研究で引用されたダウンロードは、可能な限り保持されます。
出版機関は、少なくとも1つのデータセットを出版したGBIFデータ出版者です。新しく承認された出版者はまだデータを公開していない可能性があるため、data publishers の総数は(実際にデータを出版した出版者より)わずかに多くなります。
4ギガバイト(4 GB)を超えるダウンロードは、ZIP64と呼ばれるオリジナルzip形式の拡張を使った圧縮が必要です。オペレーティングシステムによってはこの拡張機能をサポートしていないものもあります。 Microsoft Windows XPやMac OS Xシステムもその1つです。ファイルの解凍に使用しているソフトウェアがZIP64拡張子と互換性があることを確認してください。
各ページの右上にあるフィードバックボタンを使用するか、メールで問い合わせください。
将来のGBIFの事業計画では、この作業をさらに拡張し、GBIFでのデータ提供に関連するその他の興味深い傾向を含めていく可能性があります。フィードバックボタンを使用して、追加のアイデアや現在のグラフに関するコメントを提供いただくか、プロジェクトへ貢献することをご検討ください。
「完全なレコード」とは、ここでは種が同定され、有効な座標をもち、採集または観察した日付が完全なものと定義します。 GBIFから出版された一部のレコードは完全ではありません。これにはさまざまな理由が考えられます。たとえば、慎重に扱うべきデータについては座標を意図的に除外されていること、一部の歴史的なコレクションでは採集した日付が部分的にしか残っていないこと、などがあげられます。しかし、多くのデータセットでは、関係するデータ出版者と協力することにより、レコードの完全性を向上させることができます。すべてのGBIFノードは、データをより広範な用途に適応できることにつながるレコードの完全性を向上するため、ノードのネットワーク内のデータ出版者とどのように協力できるか検討することを推奨されています。
元の未処理データはHadoop上にあります。GBIFコア処理ライブラリ(Java)をラッピングするカスタムUDFを使用したHadoop上のデータのSQL処理にはHiveが使用されます。 Hiveは、そのデータをCSVテーブルに変換するために使用されます。他のすべての処理はRで行われます。
colorbrewer2.orgのカラーパレットを使い、色覚異常のない色を選択する試みが行われました。残念ながら、すべてのチャートで機能する適切なカラーパレットを見つけるのは困難で(たとえば、世界共通のものと特定の国のものなど)、これらを改善するためのご意見を提供いただければ幸いです。
このチャートは反復バージョンアップの最初の段階です。将来のバージョンではよりインタラクティブになる可能性がありますが、たとえば年次報告書などについてPDFによる表示とシンプルな画像のどちらが必要かといったことを検討しなければなりません。これはオープンプロジェクトで、データの可視化の改善に関心がある人なら誰でも参加できます。是非、お問い合わせください。
チャートがデータ収集のバイアス(季節性、祝日)やデータ管理の潜在的な問題(年/月/週の最初または最後の日に現れる不釣り合いな数のレコード)を示すようなパターンを提示することがあります。このような問題は、データ処理のさまざまな段階で発生する可能性があり、さらに調査が必要です。
これは、GBIFからデータセットが削除されたためです。これは、出版者がデータの削除を希望した場合に発生することがありますが、その多くは誤って2回公開されたデータセット(重複したデータセット)を削除するためです。
すべてのデータは最新のGBIFバックボーン分類法に基づいて処理され、種の数が経時的に比較できるようにしています。
このプロジェクトはGitHub上のプロジェクトサイト. でドキュメント化されています。 GBIFインデックスはおおむね年間4回の履歴ビューが復元され(2014年5月現在、合計約80億レコード)、生データは最新の品質管理とバックボーン分類で処理されます。その後、レコードがさまざまなスクリプトを使って小さなビューに要約され、さらにRで処理されてチャートが作成されます。
このプロジェクトは、GitHubプロジェクトサイトでオープンに開発されています。 一部のデータの準備段階ではGBIFインデックスとHadoopインフラストラクチャへのアクセスが必要ですが、他の段階ではRを使って実行され、リモート開発ができます。 この作業に貢献したいとご希望の方は是非、お問い合わせ ください。
ダウンロードは現在のところできませんが、この機能を追加する計画をしています。これらのレポートのダウンロードに関心がある場合は、このページの上部右側にあるフィードバックボタンを使用して、どのようにこの機能が実装されるのが望ましいか説明してください。
GBIF事務局が、GBIFネットワークに見られるデータ提供の傾向に関する情報を作成しています。 GBIFネットワークで提供されたデータの傾向を明らかにすることは、データ提供の取り組みについて計画したり、先に資金提供を行ったデジタル化やデータ提供の成果を示したり、データの用途に合致するための改善に向けて目標とすべき課題にハイライトを当てたりすることに役立ちます。
GBIFは現在、4つのクラスのデータセットをサポートしています。 GBIFは現在、種のオカレンスレコードにのみインデックスを付けており、これらはコアレコードまたは拡張レコードとして提供されています。 サンプリングイベント・データセットの場合、エクステンションレコード内の種のオカレンスは、コアイベントレコードからの情報で可能な限り増補されています。
このGBIF GitHubリポジトリには、引用の自動生成の背景にあるロジックについてもう少し正式な説明があります。
作成者等の記載がない場合や作成者の記載がなくメタデータの作成者のみ記載がある場合には、引用を探すテキストとして、まず発行機関の名前が使われ、次いで発行年とその他の要素が使われます。
GBIFは、メンテナンスのためにインデックスサービスを停止する場合があります。 これが、データセットが予期したとおり迅速にインデックス化されない最も一般的な理由です。
データセットのインデックスが正常に再作成されていても、レコードが実際に更新されていない場合には、 クローリングサービスの バグ の影響を受けている可能性があります。
どちらの場合も、GBIFがデータセットをインデックスに登録できなかったと思われる場合は、問題を調査するよう、GBIF.orgから直接フィードバックを送信するか、GBIFヘルプデスクにメール してください。
答えは、GBIFのインデックスの待ち行列 がどれだけあるか、あなたのデータセットのサイズはどれだけか、また、GBIFのインデックスサービスが稼働中かどうかによって異なります。
通常、GBIFがデータセットのインデックス作成を開始するには、5〜60分かかります。 開始されると大規模なデータセット(たとえば、数百万のレコード)ではインデックス作成が完了するまで数時間かかる場合があるため、辛抱強くお待ちください。 GBIFがデータセットのインデックス作成に失敗していると思われる場合は、GBIF.orgから直接フィードバックを送信するか、GBIFヘルプデスクにメール して、問題を調査するよう依頼してください。
これらは、GBIFおよびGBIF.orgに関する、よくある質問の一部です。
ここであなたの疑問が解決しない場合は、お問い合わせください。