Статьи о данных по Европейской части России 2020: вопросы и ответы

С веб-семинара 28 апреля 2020 года с Любомиром Пеневым и Теодором Георгиевым из издательства Pensoft

qa-img

Вопросы и ответы
Программа 2020 года

Вебинар

Вебинар прошел 28 апреля 2020 на русском языке с участием сотрудников PENSOFT (Любомир Пенев, Теодор Гeоргиев, Мария Колесникова) и секретариата GBIF (Дмитрий Щигель).

Вопросы и ответы

  1. Допустима ли публикация статьи о данных по Европейской части и Западной Сибири?
    Да, но в числе нужных 5000+ записей будут учитываться только данные Европейской части России (к западу от уральского водораздела). В условиях конкурса не рекомендуется искусственное разделение однородных массивов данных - например, если вы планируете опубликовать данные маршрутные учетов, который были проведены в рамках одной программы, не имеет смысла специально отфильтровывать данные по Е.ч.

  2. Что такое и как работает ARPHA?
    Об этом будет рассказано на вебинаре.

  3. Если мы ранее в опубликованные датасеты (occurrences) включали в том числе и сборы из Европейской части России, но без данных геолокации, можно ли сейчас включить эти точки в новый датасет по европейской части, но в доработанном виде, т.е. с координатами?
    Да.

  4. Учитываются ли в 5000 записей записи о видах (при публикации чеклиста) или только точки?
    В случае публикации набора данных с точками (оссurrences) или систематически собранных данных (sampling event data), учитываются точки. В случае публикации чеклистов учитывается как количество видов, так и привязанные к ним точки (если они есть). Обратите внимание, что при публикации чеклистов и систематически собранных данных критерий в 5000+ записей может быть ослаблен.

  5. Возможно ли добавление в статью (помимо новых 5000 записей) данных из ранее опубликованных датасетов (occurrences) и обновленных в 2020 году?
    Да, если эти обновления существенно увеличивают ценность таких записей, например уточнено определение, сделана геопривязка.

  6. Будут учитываться записи, где occurrenceStatus=absent? Актуально для данных о сборах беспозвоночных.
    Да, но только в случае публикации как sampling event dataset и наличия сопоставимого числа presence записей.

  7. Наш датасет (https://doi.org/10.15468/cpnhcc) существует с 2017 г., в него постоянно добавляются новые пространственные данные. Сейчас он охватывает 400 000 записей из Европейской России и еще 600 000 со всего мира. Варианты: а) можно написать про этот датасет; б) лучше написать только про часть этого датасета из Европейской России; в) не подходит для этого случая.
    a) или б), в случае если число новых или геопривязанных записей превышает 5000. Искусственное рассечение логически однородного датасета не приветствуется.

  8. Датасет https://doi.org/10.15468/827lk2 содержит исключительно полный набор данных по Москве и области (49 тыс. записей), а еще 15 тыс. записей - это недавно начатый ввод данных по Восточной Европе. Варианты: а) можно написать про этот датасет целиком; б) лучше написать только про московскую часть этого датасета.
    a) предпочтительнее. Искусственное рассечение логически однородного датасета не приветствуется. Следует иметь в виду, что задача data paper - “засветить” и продвинуть набор данных через рекламирующую и описывающую его научную публикацию. Выгоднее и правильнее продвигать весь датасет.

  9. Датасет iNaturalist Research-grade Observations - важнейший источник современных данных по флоре Европейской России, которые собирают 4000 человек при экспертной поддержке нашей команды. Верно ли, что этот датасет совершенно не подходит для этого случая?
    Это пограничный случай. Research grade наблюдения из iNaturalist автоматически попадают в GBIF, формально они опубликованы iNaturalist. В случае, если участники проекта по флоре сделали 5000+ наблюдений в 2020 году, это может быть учтено как проходной количественный критерий для, например, статьи о проекте по флоре.

  10. Обязательно ли набор данных должен быть целиком размещен в GBIF? Можно ли описывать данные, которые в GBIF на 85%, а точка доступа к 100% - другая?
    Можно, если 85% - это 5000+ новых записей.

  11. Может ли стать объектом для data paper массив данных о перечете деревьев на постоянной пробной площади? Размер площади 40Х200 м, 10000+ деревьев 12-ти видов. На площади сделано 2 перечета с разницей в 30 лет. Учитывали статус дерева (живое-мертвое) и измеряли диаметр. Площадь в полидоминантном широколиственном лесу, в заповеднике “Калужские засеки”.
    Формально можно, на практике это пограничный случай. Публикация данных где одно дерево - один оссurrence — редкость. Как правило, в случае samping event для каждой площадки (event) перечисляются все виды на ней, а в качестве количественного показателя приводится число стволов или проективное покрытие этого вида, зависит от методики.

  12. Соответствует ли критериям BDJ набор данных, на 90% основанный на сведениях, опубликованных ранее в печатных изданиях (в том числе с участием авторов набора данных) и на 10% - на новых наблюдениях? В GBIF эти материалы ранее не публиковались. Записи охватывают период с 1851 г. до настоящего времени.
    Да, соответвует, если в результате появляется 5000+ новых записей, которых раньше в GBIF не было. Рекомендуется в метаданные датасета добавить список использованной литературы.

  13. Можно ли будет добавлять данные в датасет после опубликования статьи о датасете?
    Да, датасет - в отличие от журнальной публикации - динамический продукт, он может расти, сжиматься, иметь несколько версий. Важно, чтобы при подаче рукописи в печать, датасет соответсвовал условиям спецпредложения 2020 года. Не существует формальных границ понятия датасет, а также нет правил, которые регламентируют насколько датасет должен измениться по сравнению с исходной версией, чтобы стать фактически другим продуктом, новым датасетом и заслуживает нового DOI. Хорошим маякми будут здравый смысл и внутрення однородность / логика границ датасета.

    Пример A: гербарий университета X в 2020 году содержал 7000 образцов, в 2020 году о нем вышла статья о данных, которая описывает эту коллекцию и данные. В 2025 году та же коллекция содержит уже 35000 образцов, датасет выдержал несколько новых версий, DOI прежний. Кураторы пока решили не публиковать новую статью.

    Пример Б. Институт М опубликовал в 2020 году данные учетов наземных беспозвоночных, 6000 записей из таежной зоны. Статья о данных в нашем выпуске BDJ описывает эти данные. В 2025 году накоплено 10000 новых образцов, учеты ловушками Малеза из лесостепной зоны. Работала та же команда, тот же институт, но методы и цели учетов, время, природная зона отличаются - лесостепные данные образуют отдельный датасет, а не дополняют версию таежного. Оба датасета опубликованы с аккаунта института М. По первому вышла статья о данных, по второму пока нет.

  14. Относятся ли условия конкурса к морям России? Какие именно морские акватории России подходят для участия в конкурсе?
    Территориальные воды, примыкающие к Европейской части РФ.

  15. Будет ли рассылка, что подана 20-я статья? И больше можно не суетиться?
    Нет, мы расчитываем, что если квота будет превышена, мы найдем решение этого вопроса.

  16. С нашими базами данных мы непрерывно работаем. Что делать если изменения будут появляться после того как бд опубликована в GBIF?
    Датасет динамический продукт, возможно публикация новых версий под тем же DOI.

  17. Могут ли быть опубликованы сведения по разным группам организмов (растения, животные, грибы)?
    Да.

  18. Можно ли опубликовать данные геоботанических описаний или только данные о местонахождениях видов?
    Можно, не только.

  19. Мы планируем публикацию Сорные растения европейской части России. Можем ли внести и данные по Уралу. Просто большая часть из европейской части: Ленинградская область, Вологодская, Псковская, Новгородская, Удмуртия, Башкирия.
    Прекрасная тема.

  20. Публикация может касаться только части из опубликованных 5000 записей?
    Рекомендуется, что статья описывает весь набор данных.

  21. Мoжет ли быть в DS быть 5к записей по Европейской части и 50К по Сибири?
    Да.

  22. Могут ли в одной публикации (data paper) суммироваться записи разных наборов данных (dataset), загруженных от разных аккаунтов (разных организаций), но объединенных тематически и локализованных на Европейской части?
    Да, одна статья о данных может описывать более одного датета. В настоящее время ARPHA поддерживает автоматический импорт EML из одного датасета, но рукопись, созданная таким образом, можеть быть дополнена вручную.

  23. Каковы требования к определению координат?
    https://www.gbif.org/document/80536/biogeomancer-guide-to-best-practices-in-georeferencing

  24. Все ли из представленных на слайде [PENSOFT] журналов платные?
    Более половины журналов PENSOFT бесплатные.

  25. Вопрос о размере набора данных, который может быть опубликован в формате data paper. Я слышала рекомендации, что это должен быть достаточно большой набор. Как происходит на практике, разброс размеров публикующихся наборов данных в виде статей data paper?
    Рекомендаций по размеру набора данных в BDJ и GBIF нет.

  26. В нашем датасете 1 млн записей. По результатам аудита не должно быть ни одной ошибки, верно?
    Это практически невероятно. Аудит призван уменьшить количество ошибок в датасете и снабдить авторов отчетом с рекомендациями по их устранению.

  27. После того как описание датасета, размещенного в GBIF, загружено в Arpha, есть ли возможность внести туда дополнения?
    Да.

  28. Этот вебинар для тех, кто уже работает в Гбиф, а будет ли вебинар для "чайников", тех кто только собирается вносить свои данные, но еще не делал этого?
    В рамках конференции в Екатеринбурге будет озаочный курс "для чайников", который стартует буквально сегодня. Можно присоединиться. Запись по gbif.ru@yandex.ru.

  29. Можно ли будет остановиться поподробнее на содержании истории датасета?
    Авторы вправе включить в рукопись любую информацию, которая кажется им важной.

  30. В рамках проекта данные тоже публиковать через Arpha?
    Нет, ARPHA - структурированный текстовый редактор для работы над рукописями онлайн. Для публикации данных в GBIF следует использовать IPT и другие системы https://data-blog.gbif.org/post/installations-and-hosting-solutions-explained/.

  31. Существует ли краткое руководство, как провести процедуру подготовки данного типа публикации?
    • GBIF: http://gbif.ru/datapublish
    • BDJ https://bdj.pensoft.net/about#Data-publication
    • по поводу вопросов по публикации наборов данных пишите на gbif.ru@yandex.ru.

  32. ARPHA является пионером в таком типе работы с GBIF или прочие издательства такое практикуют?
    Насколько нам известно, ARPHA первая и единственная система такого рода.

  33. Делает ли ARPHA автоматическую статистику и таблицы на основании датасета или это загружается отдельно?
    Отдельно.

  34. Вот такая ситуация: статья, один вид, и исследован один признак; чатотат встречаемости этого признака рассчитана; такая (или подобная) статья - в принципе - годится для публикации в GBIF?
    Основные типы данных в GBIF - точки, чеклисты и данные учетов. Если точки или данные учетов снабжены дополнительной (с точки зрения GBIF, но для вас основной) информацией, например данные по признакам, эти поля будут представлены в verbatim (исходном) виде ваших данных, но не будет индексированы GBIF.

  35. Может ли датасет объединять данные по разным типам исследований на одном участке? Например, численность и биомасса макрозообентоса (экземпляры и граммы в точке, без пересчёта), численность и биомасса фитопланктона (даётся в пересчёте на м3) и данные по концентрации хлорофилла А?
    Да, см sampling event datasets.

  36. Хотелось бы уточнить: датасет содержит 1300 events и 5400 occurrences. Удовлетворяет ли он заданным критериям?
    Да.

  37. повтор вопроса о пробной площади. Это случай, где измеряется каждое дерево по-отдельности, а не интегральные характеристики. Т.е. перечет деревьев - 1 event.
    В этом случае возможна публикация данных где одно дерево - одна точка или один event.

  38. Какие критерии рецензента о допуске статьи к публикации? Я имею ввиду соответствие материала требованиям журнала.
    https://bdj.pensoft.net/about#Data-Review-Guidelines

  39. Есть ли рекомендации от Pensoft куда обращаться по поводу proofreading?
    PENSOFT предоставляет планые услуги сopy editing (редактирование английского). Обратите внимание, имена коллег, оказавших дружескую помощь с английским могут быть указаыны как Contributors (не входят в список авторов).

  40. Как технически вносить изменения в датасет, уже опубликованный в гбиф? Или где об этом почитать?
    Измения вносятся в исходную систему, новый экспорт данных становится новой версией в GBIF. Применимы стандартные инструкции по публикации данных, но при использовании IPT mapping и другие шаги делать заново не нужно.

  41. Могут ли в одной публикации (data paper) суммироваться записи разных наборов данных (dataset), загруженных от разных аккаунтов (разных организаций), но объединенных тематически и локализованных на Европейской части?
    Да.

  42. При геопривязке получается 3 степени точности: современные, снятые в поле с GPS, данные, где координаты с карт (2 знака после запятой) и, наконец, достаточно приблизительная привязка, основанная на этикетке. Каким-то образом надо различать степень точности привязки?
    https://www.gbif.org/document/80536/biogeomancer-guide-to-best-practices-in-georeferencing

  43. Если рецензент русскоязычный, может ли он русскоязычным авторам давать рецензию на русском?
    Любомир ответил “Да, если редактором будет Дмитрий”, но так как BDJ - англоязычный журнал, и деловой язык BDJ - английский, я предпочел бы вести переписку между авторами, редакторами и рецензентами по английски. Я рад ответить на вопросы по русски по e-mail.

  44. А количественный критерий в таком случае должен выполняться для основного dataset?
    Может выполняться для суммы датасетов, если они описаны одной статьей о данных.

  45. Если опубликовано несколько DS и сумма данных 5000, то публикация в журнале может касаться лишь одной DS?
    Статья о данных может описывать один или более датасетов.

  46. Данные, собранные в окрестностях Екатеринбурга и Миасса являются ли достаточно западными?
    Нет.

  47. Полярный Урал, это не Западная часть России?
    См. водораздел. Западный склон входит в целевой регион, но разбиение датасетов нежелательно.

  48. Сколько стоит публикация в журнале?
    450€. Первые 20 публикаций по Европейской части России в 2020 будут спонсированы (бесплатны для авторов). Региональных ограничений для авторов и публикующих организаций нет – только для данных.

  49. Набирать только наборы по типу occurrence и checklist или можно sample event?
    Можно все три типа.

  50. В рамках проекта статьи отправлять Дмитрию, или регистрировать через ARPHA?
    Нужно следовать стандартной процедуре подачи рукописи в BDJ через ARPHA. Мы забыли объяить на вебинаре, что нужно указать, что рукопись направляется в специальный выпуск (“collection” в терминологии PENSOFT). Выпуск / коллекция будет запущена в ближайшее время.

  51. Входит ли Вiodiversity data Journal d Scopus and WoS?
    Да.

  52. А если данные были раньше опубликованы в Inaturalist, и некоторые из них были опубликованы в GBIF. Будут ли они учтены если они войдут в новый датесет размещенный в GBIF?
    Намеренная дупликация данных не приветсвуется, см. критерий новизны данных в GBIF на 2020 год и вопрос №9.

  53. Может быть все таки Свердловскую и Челябинскую области считать европейскими?
    К сожалению, нет. Ограничения вызваны источником финансирования.

Большое спасибо за активное участие, отличные вопросы!

Ресурсы и соцсети

ARPHA на русском

ARPHA на английском:

Biodiversity Data Journal

Pensoft

Хэштег вебинара в Twitter

  • #BDJWebinar

DOI Статьи в RIO