Учредитель журнала

Современные тенденции и проблемы развития репозиториев

УДК 001:002.2:004.738.5

DOI 10.52815/0204-3653_2022_02186_81
EDN: MTYWER

Редькина Наталья
заведующая отделом,д. п. н., главный научный сотрудник,
Государственная публичная научно-техническая
библиотека Сибирского отделения Российской академии наук
(ГПНТБ СО РАН)
e-mail: redkina@spsl.nsc.ru

Введение

В рамках различных инициатив, разрабатываемых многочисленными университетскими и национальными сообществами и такими организациями, как Center for Open Science, FORCE11, ведется активная работа по развитию открытой науки. Движение за открытый доступ (ОД) выступает за неограниченный доступ к научным публикациям во всем мире [1, 2], а ресурсы ОД являются основным фактором формирования информационной инфраструктуры открытой науки. Распространенными стратегиями, поддерживающими открытый доступ, являются создание и поддержание институциональных и иных репозиториев, а также введение регламентов в научных организациях и университетах, обязывающих исследователей депонировать пре- или постпринты своих публикаций, предоставлять научные данные для повторного использования. Еще в 2008 г. факультет искусств и наук Гарвардского университета объявил о необходимости предоставления университету копии исследований вместе с неисключительной лицензией на распространение работы в электронном виде. Как отмечал Р. Дарнтон, переход на систему открытых данных «изменяет ландшафт обучения» и «исправляет поврежденную, чрезмерно дорогую систему научной коммуникации» [3]. Расширение сотрудничества за счет использования открытых репозиториев было принято большим количеством исследовательских и образовательных учреждений.
В последние годы проведено немало исследований специфики организации репозиториев открытого доступа и их развития в разных странах [4, 5, 6, 7, 8], анализа тематики хранилищ из разных областей наук [9, 10]. Учеными определены проблемы обмена данными [11], преимущества ведения репозиториев [12] и поиска в них [13], заключающиеся в сужении круга поиска до проверенных источников, аналитико-синтетической обработке представленных документов, наличии специфических лингвистических средств поиска, сокращении временных и финансовых затрат. Исследования касались терминологии и классификации репозиториев. Анализируя определения понятия «репозиторий», М. Ю. Рождественская [14] приводит трактовки разных авторов, интерпретирующие репозиторий как хранилище, электронный архив, электронную библиотеку, электронную коллекцию или даже набор сервисов для сбора, сохранения, распространения информации, результатов интеллектуального труда, статей и др. Термин «репозиторий» не закреплен в регламентах, поэтому возникают разные подходы к наименованию ресурсов открытого доступа. В каталогах репозиториев можно обнаружить электронные библиотеки, открытые архивы и прочие ресурсы. В рамках данной статьи будем использовать термин «репозиторий» как систему для накопления, длительного хранения и обеспечения долговременного и надежного открытого доступа к результатам научных исследований.
Научные репозитории сегодня представляют собой многоконтентные платформы, которые позволяют управлять всеми видами результатов исследований, интегрироваться с широким спектром информационных систем, упростить отчетность по требованиям спонсоров, соблюсти принципы FAIR (Findable, Accessible, Interoperable, Re-usable), гарантируя, что данные исследований «находимы, доступны, интероперабельны и пригодны для повторного использования», т. е. обеспечивают возможности поиска по разным параметрам, предлагают дополнительные сервисы, увеличивают видимость научного контента и делают исследовательские работы более доступными, способствуя максимально широкому распространению контента открытого доступа с соблюдением авторских прав.

Мировой рынок репозиториев

Будапештская инициатива открытого доступа [15], принятая 20 лет назад, повлияла на движение за открытый доступ к научной информации. Согласно статистическим данным OpenDOAR (https://v2.sherpa.ac.uk / opendoar / ) – глобального каталога репозиториев с открытым доступом, в мире насчитывается более 5 847 открытых архивных систем, в 2020 г. их число составляло 5 500. В числе лидеров по количеству репозиториев такие страны как США (920), Япония (681), Великобритания (319). Программное обеспечение Dspace, доля которого достигла 39 %, было признано предпочтительным для большинства репозиториев. Далее следуют EPrints (11 %), WEKO (9 %) и др. Распределение по типам контента следующее: статья из журналов (4 095), тезисы и диссертации (3 405), книги и главы из книг (2 270), материалы конференций (2 060) и др.
О возрастающем количестве репозиториев свидетельствуют данные, представленные крупнейшими каталогами и агрегаторами, такими как:
− ScienceOpen (https://www.scienceopen.com / ) –
исследовательская платформа с интерактивными функциями поиска, рецензирования, рекомендациями и обмена в социальных сетях, позволяющая ученым продвигать свои исследования в открытом пространстве;
− CORE (https://core.ac.uk / ) – междисциплинарный агрегатор исследований открытого доступа, увеличивающий видимость контента за счет интеграции с различными платформами, включая PMC LinkOut, Microsoft Academic Search, arXiv и др.;
− DOAJ (https://doaj.org / ) – каталог журналов открытого доступа, содержащий более 17 500 рецензируемых журналов по всем областям наук;
− КиберЛенинка (https://cyberleninka.ru / ) – 
научная электронная библиотека, целью которой является распространение знаний по модели открытого доступа, обеспечивающей популяризацию науки и научной деятельности, общественный контроль качества публикаций, развитие междисциплинарных исследований, повышение цитируемости российской науки и др.
На развитие информационной инфраструктуры открытой науки оказывают влияние и отраслевые ресурсы, такие как, PubMed Central и BioMed Central (медицина, биология и пр.), arXiv.org (математика и информатика), EconBiz (экономика и бизнес) и т. д. Наборы данных располагаются во множестве независимых репозиториев (Dryad, Zenodo, Pangea, Figshare и др.), используемых для сохранения и обмена результатов исследований, включая изображения, наборы исследовательских данных, видео, программное обеспечение и пр.
Большинство электронных архивов препринтов придерживаются принципа свободного доступа к научным исследованиям, предоставляя возможность публикации работ и их скачивания на безвозмездной основе. Одним из крупнейших репозиториев является ArXiv.org (архив с открытым доступом для научных статей в области физики, математики, информатики, количественной биологии, количественных финансов, статистики, электротехники и системоведения, а также экономики). Он предлагает исследователям широкий спектр услуг: отправка статей, компиляция, производство, поиск, поиск и открытие, распространение в Интернете для читателей и доступ к API для машин, а также курирование и сохранение контента. Значительное увеличение документов открытого доступа фиксируется (рис. 1) в последние 5 лет (2017‑2021 гг.). С появлением все большего числа репозиториев и реализацией политик, способствующих внедрению культуры открытой науки, стали возникать вопросы их оценки с учетом разных индикаторов.

Рис. 1. Динамика загрузок статей в arXiv
(1994–2021 гг., результаты по 12 месяцу каждого года)

Рейтинг институциональных и журнальных репозиториев

Одним из известных рейтингов мировых репозиториев является «The Ranking Web of World repositories» (https://repositories.webometrics.info) –
инициатива Cybermetrics Lab, исследовательской группы, принадлежащей Consejo Superior de Investigaciones Científicas (CSIC), крупнейшему государственному исследовательскому учреждению в Испании. Целью данного рейтинга является поддержка инициатив открытого доступа и свободный доступ к научным публикациям в электронной форме и другим академическим материалам. Веб-индикаторы используются для измерения глобальной видимости и влияния научных репозиториев на основании показателей индексирования записей репозиториев открытого доступа в Google Scholar.
Рассмотрим данные по институциональным репозиториям и журнальным платформам, основываясь на Ranking Web of World repositories. Извлеченные данные были проанализированы с использованием количественных методов и показаны в табличном формате, что позволило представить результаты в соответствии с поставленными задачами. В рейтинге выявлено пять списков репозиториев (все (учреждения + предмет), учреждения, порталы, данные и CRIS), ранжированные по убыванию количества элементов (по данным на февраль 2022 г.). В первую десятку рейтинга попали: репозиторий астрофизических данных Смитсоновского института / NASA (ADS) – портал цифровых данных для исследователей в области астрономии и физики, который разрабатывается Смитсоновской астрофизической обсерваторией в рамках гранта NASA; Федеральный университет Риу-Гранди-ду-Сул (Бразилия); Белорусский государственный университет (Беларусь); Киотский университет (Япония); Карлов университет (Чехия); университет Гаджа Мада (Индонезия); Ягеллонский университет (Польша) и др. (таблица 1). Среди репозиториев журналов открытого доступа первое место принадлежит порталу «Китайская национальная инфраструктура знаний», на котором представлены полнотекстовые статьи из более чем 2 000 китайских журналов, посвященных экономике и менеджменту. Далее идут такие ресурсы как научная электронная библиотека (НЭБ) eLibrary.ru, J-STAGE (платформа электронных журналов для японских академических журналов, находящаяся в ведении Японского агентства науки и технологий), научная социальная сеть ResearchGate, российская НЭБ, построенная на концепции открытой науки «КиберЛенинка», социальная сеть Academia.edu, агрегатор научных статей в открытом доступе из репозиториев и журналов CORE и др. (таблица 2).
Данные рейтинга подтверждают повсеместное развитие репозиториев в мире.

Таблица 1. Рейтинг видимости репозиториев открытого доступа в Google Scholar
(по данным «The Ranking Web of World repositories», февраль 2022)
Таблица 2. Рейтинг видимости репозиториев журналов в Google Scholar
(по данным «The Ranking Web of World repositories», февраль 2022)

Развитие российских электронных архивов и репозиториев

В OpenDOAR представлено 50 российских репозиториев. По результатам исследования установлено увеличение количества регистраций репозиториев с 2019 по 2022 г. (рис. 2), а также междисциплинарный статус ресурсов по содержанию. В большинстве репозиториев использовалось программное обеспечение Dspace (66 %), за которым следовали EPrints (6 %), VITAL (4 %) и другое (24 %).

Рис. 2. Динамика увеличения количества российских репозиториев в OpenDOAR

Детальный анализ состава российских репозиториев показал, что только 38 из них доступны по указанным адресам. Среди проблем выявлены повтор регистрации, ошибки в ссылке и доступе. Так, электронный архив публикаций БелГУ представлен дважды, «Российская офтальмология онлайн» и электронный архив НГУ – ошибка в ссылке, 2 ресурса отсылают на закрытый «Соционет», 7 репозиториев с ошибкой доступа, в частности, репозиторий ФИЦ «Институт биологии южных морей имени А. О. Ковалевского РАН», открытый архив Центра египтологических исследований РАН и др. Аналогичное исследование, проведенное с помощью реестра репозиториев открытого доступа ROAR (The Registry of Open Access Repositories, http://roar.eprints.org / ), также позволило выявить проблемы технического (отсутствие доступа) и организационного характера, связанные с пополнением контента у российских репозиториев [16]. Кроме того, часть крупных архивов открытого доступа не включена в указанные выше реестры и каталоги.
В целях обнаружения репозитория необходима его регистрация в официальном списке академических репозиториев, например, в OpenDOAR с описанием предметной области, типа контента, страны и языка. После регистрации в OpenDOAR репозиторий может быть использован другими службами, такими как CORE, который объединяет контент открытого доступа, увеличивая его влияние. Помимо поиска в Интернете, он также обеспечивает программируемый доступ к метаданным и полнотекстовому анализу текста.
Среди электронных архивов открытого доступа не обнаружены в OpenDOAR и ROAR несколько ресурсов, созданных в рамках мероприятия 3.3.1 «Развитие системы демонстрации и популяризации результатов и достижений науки» Федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014–2020 гг.» в соответствии с решением научно-координационного совета Федеральной целевой программы «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2014–2020 гг.» в 2020 г. Это 5 электронных архивов материалов по следующим тематическим направлениям: науки о Земле и энергетика, медицина, математика, физика, информационные технологии, общественные науки, химия, биология и физиология [17], сельскохозяйственные науки [18]. В результате выполнения работ по государственным контрактам были сгенерированы электронные архивы цифровых версий выпусков научных журналов по выбранному тематическому направлению, включая полные тексты публикаций и метаданные. Основой стали коллекции российских научных журналов по соответствующей тематике, включая метаданные публикаций, полные тексты статей или прямые ссылки на них на сайтах издателей. Важной частью работы явилось предоставление цифровых исторических архивов ряда изданий в виде скан-копий, материалов научных конференций, в том числе видеозаписи лекций и докладов. Отобранные инфоматериалы сгруппированы в рубрики (тематические разделы).
Основная цель создания открытых архивов – продвижение российских научных журналов, повышение их видимости и доступности. Отбор журналов осуществлялся в соответствии с приоритетами научно-технологического развития Российской Федерации, учитывалось индексирование журнала (его переводной версии) в международных базах данных Web of Science Core Collection, Scopus, RSCI или в одной из международных тематических баз данных (MathSciNet, zbMATH, INSPEC, Physics Abstracts, International Nuclear Information System, Physikalische Berichte, Chemical Abstracts и др.), др.
К примеру, информационные материалы электронного архива «Агронаука» [18] включают:
выпуски журналов – 1 320 выпусков;
публикации в журналах с файлами метаданных – 34 299;
полные тексты публикаций из журналов – 33 562;
научные мероприятия – 61;
доклады на научных мероприятиях – 5 136;
видеозаписи докладов на научных мероприятиях – 333;
полные тексты докладов на научных мероприятиях – 4 730.
Аналогичное количество и состав в электронных архивах можно найти по другим тематическим направлениям. Однако эти архивы, несмотря на типовое техническое задание, не идентичны по функциональным и поисковым возможностям, имеют отличия по форматам представления, дизайну и не связаны между собой, хотя для междисциплинарных исследований обращение к другим тематическим направлениям могло бы представлять интерес. Результаты анализа указанных электронных архивов показали, что часть ресурсов законсервирована и не поддерживается в актуальном виде. Некоторые материалы стали недоступны. «Владелец этого видео запретил воспроизводить его на других сайтах» – информация, которая выдается в некоторых материалах, например, в архиве «Химия, биология и физиология».
Разница в поисковых возможностях существенна. Если в электронном архиве «АргоНаука» поиск осуществляется только по рубрикам ГРНТИ (общие вопросы сельского хозяйства, сельскохозяйственная биология, почвоведение, земледелие, сельскохозяйственная мелиорация и т. д.), а также названиям журналов и их регистрационным номерам, то в архиве «Науки о Земле и энергетика» искать можно по названию, содержимому файлов, ключевым словам, дополнительным фильтрам: тематическое направление, год, ФИО, учредитель / организация, тип материалов (журнал (индексация в БД: RSCI, Scopus, WoS, РИНЦ, GeoRef, др.), мероприятие (уровень: международный, всероссийский, региональный, организационный), вид мероприятия (доклад, дискуссия, круглый стол, мастер-класс). В архиве «Математика, физика, информационные технологии», размещенном на общероссийском портале Math-Net.Ru (http://www.mathnet.ru / ), предлагаются расширенные поисковые возможности: журнал, ключевые слова, авторы, организация, финансовая поддержка, номер гранта, персоналии (ФИО, ключевые слова, организация) + авторы с наибольшим числом публикаций + наиболее цитируемые авторы; организации (поиск по названию организации, поиск по адресу, поиск по фрагменту E-mail или Website) + организации с наибольшим числом публикаций; конференции (перечень: ближайшие конференции, планируемые конференции, семинары (ближайшие семинары); видеотека, + авторы с наибольшим числом докладов.
Еще одна выявленная проблема связана с индексированием данных в репозиториях. Для того, чтобы изучить степень данных российских репозиториев на предмет соответствия одному из принципов FAIR, в частности Findable (находимость), нами были исследованы 10 электронных архивов (таблица 3). Методом случайной выборки были определены статьи в каждом из архивов и проведен поиск по названиям в поисковой системе Google (на русском и английском языках).
Наше исследование подтвердило наличие сложностей с индексированием: Некоторые электронные архивы не видны в поисковой системе Google, что может быть обусловлено техническими проблемами, закрытостью ресурса, плохой SEO-оптимизацией, использованием плагинов, блокирующих боты Google, отсутствием системы адаптации под мобильные платформы и др. Решение проблем с индексированием в поисковых системах позволит легко находить информацию и эффективно продвигать научные результаты.

Таблица 3. Результаты анализа доступности российских электронных архивов репозиториев
(по состоянию на 01.04.2022 г.)

Рекомендации по работе с репозиториями

Исследования показывают, что поисковая система, как правило, предоставляет больше ресурсов, чем коммерческие базы данных, но также и то, что коммерческие базы данных имеют больший охват, чем институциональные репозитории. Институциональные репозитории показали нулевой процент уникальности по сравнению с Google Scholar [19]. В связи с этим, в целях улучшения видимости репозиториев в Google Scholar предлагается следовать определенным технологиям индексации веб-сайтов как для индивидуальных авторов, так и для организаций и издателей.
Google Scholar включает научные статьи из самых разных источников во всех областях исследований, на всех языках, всех стран и неограниченный период времени. В целях улучшения видимости репозиториев в Google Scholar предлагается следовать определенным технологиям индексации веб-сайтов как для индивидуальных авторов, так и для организаций и издателей. Google Scholar попытались выявить потенциальные проблемы и предложили рекомендации по улучшению веб-видимости содержимого институциональных репозиториев [20, 21]. Одна из главных рекомендаций – контент, размещенный на сайте, должен состоять в основном из научных статей (журнальных статей, материалов конференций, технических отчетов или их черновиков, диссертаций, препринтов, постпринтов или рефератов) и предоставлять полный текст статей либо их полные авторские рефераты в свободном доступе, быть видимым, должен требовать от пользователей (или поисковых роботов) входа в систему, установки специального программного обеспечения, принятия заявлений об отказе от ответственности, закрытия всплывающих окон или межстраничных рекламных объявлений, нажатия на ссылки, кнопки или прокрутки страницы вниз, прежде чем они смогут прочитать весь тезис статьи.
Кроме того, выявляются проблемы, связанные с конфиденциальностью исследовательских данных, находящихся в репозиториях (результаты экспериментов, данные компьютерной томографии пациентов, основанные на крупномасштабных разнородных наборах данных, др.) [19, 22], а также с кражей данных и преднамеренном распространении дезинформации [23, 24]. В этом случае, во избежание дезинформации, в ресурсах путем краудсорсинга предлагается осуществлять экспертное рецензирование, а загрузку проводить с использованием идентификаторов авторов (ORCID и др.).
Еще одной проблемой открытой науки является так называемый «научный национализм» [25], который рассматривает научно-технический прогресс как способ обеспечения национальной безопасности, укрепления экономических преимуществ и демонстрации национального престижа. Открытый доступ к научным данным также вызывает озабоченность по некоторым вопросам, таким как защита общественных интересов, неприкосновенность частной жизни и прав интеллектуальной собственности.
Несмотря на существующие проблемы в организации работы репозиториев, загруженные в них документы и данные могут быть более заметны и чаще цитируемы. Решение вопросов, связанных с индексированием, регистрация в каталогах репозиториев и др. позволит улучшить международную видимость ученого и учреждения.

Заключение

Открытая наука позволяет обмениваться данными практически в режиме реального времени через репозитории открытого доступа. Последние стали важнейшими платформами сбора, хранения и публикации статей и наборов данных, обеспечивающими доступ к результатам научных исследований академического сообщества в долгосрочной перспективе. Результаты настоящего исследования свидетельствуют о развитии репозиториев в мире, перспективах формирования инфраструктуры российских информационных платформ открытого доступа, а также дают рекомендации по развитию и продвижению ресурсов открытого доступа.