Учредитель журнала

CRIS как источник научной и наукометрической информации для научно-исследовательских институтов

УДК 001.8:004:061.62

DOI 10.52815/0204-3653_2022_02186_94
EDN: NLQRVY

Ударцева Ольга
младший научный сотрудник, Государственная публичная научно-техническая библиотека Сибирского отделения Российской академии наук udartseva@spsl.nsc.ru

Введение

Информационная экосистема открытой науки представлена взаимосвязанными элементами в рамках сложных динамических систем (информационных и коммуникационных), которые способствуют созданию, перемещению и преобразованию информации, а также изменению стратегии проведения исследований, методов их реализации, сохранения и распространения результатов. В рамках экосистемы открытой науки Current Research Information Systems (CRIS) становится актуальным инструментом для управления исследовательской информацией (Research Information Management (RIM). Информационные системы CRIS играют значительную роль для обеспечения сбора, организации, сохранения и доступности результатов исследований научных организаций. Своевременная интеграция метаданных повышает уровень обмена научной информацией и способствует принятию правильных решений о направлениях развития исследований, что позволяет оценить эффективность научной деятельности организации в целом или отдельных исследовательских направлений, проектов, подразделений, коллективов исследователей, конкретных ученых.
Таким образом, усилия научно-исследовательских организаций, направленные на разработку информационных систем CRIS и/ или доработку их функциональных возможностей, имеют решающее значение для приобретения конкурентных преимуществ, в том числе в виде персональной заметности (visibility) организации в профессиональном сообществе [1, 2]. Помощь в сборе информации о научно-исследовательской деятельности академического института оказывают библиотеки – создают и ведут каталоги, формируют базы данных (БД), в которых отражают информацию о трудах сотрудников института (статьи, монографии, учебные пособия, патенты и т. п.). На основе БД научных публикаций сотрудников института, а также репозиториев создаются информационные системы [2, 3]. Более того, создание систем CRIS рассматривается как одно из перспективных направлений деятельности библиотек в условиях цифровой трансформации [5]. Применение CRIS обеспечивает расширение возможностей хранения, обмена, полноты, актуальности, статистического анализа, гибкости (связь данных). Кроме того, некоторые генерируемые в CRIS метаданные импортируются из внешних источников, в частности из РИНЦ (eLibrary.ru), что в свою очередь повышает оперативность сбора наукометрической информации.
Целью исследования является анализ тенденций применения систем CRIS для формирования наукометрической информации о деятельности научно-исследовательских институтов. Кроме того, учитывая незначительную практику использования с этой целью систем CRIS, рассмотрен и проанализирован опыт организации исследовательских данных на официальном сайте института.

Обзор литературы

Разработкой информационных систем занимаются как за рубежом [6, 7, 8, 9], так и в России [2, 3, 10]. Для определения оптимальной архитектуры CRIS при разработке информационной системы, исследователи изучают лучшие мировые практики, рассматривают возникающие проблемы создания и использования, оценивают возможности и предлагают подходы для интеграции метаданных. Большое внимание уделяется решению проблем, связанных с отражением источников финансирования научных исследований и аффиляцией автора в публикациях [2].
Исходя из необходимости комплексного видения исследовательского процесса, авторы отмечают, что применение CRIS способствует реализации, своевременной координации и управлению исследовательской деятельностью [11].
Использование систем CRIS как источника информации определяется следующими положительными аспектами: метаданные публикаций предоставляются организацией, осуществляющей эти исследования (достоверность данных); абсолютная идентификация организации и автора (точность данных) [6]. Можно выделить несколько категорий пользователей, которые используют CRIS в:
• исследовательском и образовательном процессе – ученые, преподаватели и студенты;
• управлении научным знанием – руководители научных проектов, административный состав университета или научно-исследовательского института, аналитики;
• финансировании науки – эксперты и финансирующие организации.
Для обеспечения автоматизации процесса генерирования информации в системах CRIS предлагается подход, который строится на компьютерной классификации контента в системе – выполняется перевод неструктурированной информации в структурированную форму [12]. Более того, по мнению С. С. Дымковой, работа над созданием и поддержанием информационной системы должна вестись в рамках самостоятельного отдела организации научной работы [11].
Данные систем CRIS используются для анализа результатов исследований на национальном уровне, осуществляется анализ библиометрических показателей с применением разных методов подсчета [6]. На основании данных информационных систем осуществляется не только изучение исследовательской деятельности организации, но и анализируются персональные характеристики ученых. Так, в исследовании M. Савик и др. проведен сравнительный анализ гендерной принадлежности ученых в привязке к их публикационной активности [12]. Для осуществления гендерного анализа авторы используют GERBER – автоматизированный инструмент, функционирующий на языке программирования Java. Данные для гендерного анализа собираются посредством CRIS University of Novi Sad (Сербия) и экспортируются в GERBER. Применение такого подхода позволяет интегрировать GERBER в рамках системы CRIS в качестве дополнительного аналитического сервиса для изучения продуктивности исследователей сквозь призму их гендерных различий.
Во многих исследованиях большое внимание уделяется изучению взаимодействия CRIS с другими системами. Для оптимизации процесса генерирования информации в CRIS используются стандарты CERIF (Common European Research Information Format), способствующие интегрированию данных Open Researcher and Contributor IDentifier (ORCID) [7, 8, 9, 14]. Способность CRIS внедрять сервисы для обмена данными делает ее многофункциональным инструментом для оценки эффективности исследовательской деятельности ученого, подразделения, организации, страны.
Подготовка метаданных документов для информационных систем осуществляется при поддержке библиотеки. Преследуя задачу – оказать информационное сопровождение научных исследований, библиотека собирает данные в репозиториях и организует к ним доступ. Анализируя методику процесса управления информационными системами, авторы отмечают необходимость слияния информационных систем и репозиториев, создаваемых библиотекой [14].
В рамках оценки управления исследовательской информацией авторы занимаются изучением уровня участия исследователей в формировании данных о собственной научной деятельности, в частности акцентируется внимание на причинах ведения авторского профиля в системах RIM, таких как Academia.edu, Bing Academic, Google Scholar, ORCID, Microsoft Academic, ResearchGate [16].
В рамках данной статьи особый интерес имели работы, в которых рассматривается опыт научно-исследовательских институтов в разработке собственных продуктов CRIS [2, 3, 7, 10].

Методология

Проведен мониторинг сайтов научно-исследовательских институтов, подведомственных Федеральному агентству научных организаций, выполняющих научно-исследовательские, опытно-конструкторские и технологические работы гражданского назначения. На предварительном этапе были собраны URL-адреса официальных сайтов научно-исследовательских институтов. Перечень научных организаций, распределенных по трем категориям, был взят из приказа Федерального агентства научных организаций от 30 марта 2018 г. № 157 «Об отнесении научных организаций, подведомственных Федеральному агентству научных организаций, выполняющих научно-исследовательские, опытно-конструкторские и технологические работы гражданского назначения, к соответствующей категории научных организаций» [17]. Из 454 научно-исследовательских институтов, представленных в перечне, по нескольким причинам проанализировано 438 сайтов: ликвидация (слияние) научно-исследовательского института; отсутствие сайта; технические проблемы работы сайта.
Сбор данных для анализа научной и наукометрической информации, размещаемой на сайтах научно-исследовательских институтов, осуществлялся на протяжении нескольких месяцев, полученные данные формировались в таблицы. Проведен качественный анализ информационного наполнения разделов «Наука», «Структура института», «Сотрудники» и «Публикации», формируемых на сайте института. Осуществлена оценка организации перекрестных ссылок, актуальности и полноты информации.

Информационные системы научно-исследовательских институтов

Растущая потребность в количественной оценке научной деятельности, осуществляемой научным учреждением, и в управлении исследовательским процессом стимулирует необходимость использования таких информационных решений, как CRIS. Информационная система текущих исследований является автоматизированным продуктом, который способствует не только увеличению скорости обработки информации, но и скорости распространения научного знания в профессиональном сообществе. Однако, как показал анализ контента сайтов, всего 2 % научно-исследовательских институтов (Институт математики и механики им. Н. Н. Красовского УрО РАН, Институт физической химии и электрохимии им. А. Н. Фрумкина РАН, Институт катализа им. Г. К. Борескова СО РАН, Институт физики Земли им. О. Ю. Шмидта РАН, Институт экспериментальной минералогии РАН, Институт этнологии и антропологии им. Н. Н. Миклухо-Маклая РАН и другие) имеют информацию о сборе и хранении исследовательских данных на платформе CRIS. Одни научно-исследовательские институты создают собственные разработки, другие – используют имеющиеся отечественные решения – Интеллектуальная система тематического исследования наукометрических данных «ИСТИНА» (Московский государственный университет имени М. В. Ломоносова, http://istina.msu.ru / ).
Важными характеристиками информационных систем, которые выделяют их среди других, являются: актуальность информации; полнота отражаемых данных; наличие поисковых возможностей; логичная организация перекрестных ссылок для представленных метаданных. Сбор данных в информационных системах не всегда автоматизирован, более того, мнение исследователей на этот счет разделились. Одни считают, что в процессе генерирования информации должны участвовать исследователи [18], как заинтересованная сторона. Другие, отмечают, что автоматизированный подход позволяет избежать ошибок, в частности дублирования информации, опечаток, пропуска метаданных в библиографическом описании [19, 20]. Сделать детальный анализ элементов систем CRIS собственной разработки научно-исследовательских институтов не представляется возможным, так как данные этих информационных продуктов закрыты.

Рис. 1. Распределение данных исследовательской деятельности научно-исследовательских институтов на официальном сайте

В информационной системе «ИСТИНА» представлены исследовательские данные трех научно-исследовательских институтов (ФГБУН «Институт физической химии и электрохимии им. А. Н. Фрумкина» РАН, ФГБУН «Институт физики Земли им. О. Ю. Шмидта» РАН, ФГБУН «Институт экспериментальной минералогии» РАН). Научно-исследовательская деятельность институтов открыта для всех категорий пользователей. Информация формируется в рамках научных направлений и подразделений института, которые занимаются их разработкой. Научная деятельность подразделения представлена данными об исследовательской деятельности сотрудника. Персональные данные о сотруднике формируются такими сведениями как должность, степень, стаж работы в институте, список соавторов, идентификаторы (IstinaResearcherID (IRID), ResearcherID), количественные наукометрические данные (количество публикаций, монографий, патентов, тезисов докладов, диссертаций, докладов на конференциях; количество цитирований по данным Web of Science, Scopus, РИНЦ). Метаданные публикаций представлены с возможностью перехода к подробному библиографическому описанию и при наличии к полному тексту. В персональном профиле сотрудника также отражена информация о научно-исследовательских проектах, в рамках которых ученый ведет научно-исследовательскую работу. В карточке проекта дана информация о:
• руководителе,
• ответственных исполнителях,
• участниках НИР,
• подразделениях института,
• сроках выполнения,
• номере договора (контракта),
• типе исследований (фундаментальные, прикладные).
Также формируются данные:
• ключевые слова,
• описание проекта,
• планируемые результаты НИР,
• научный задел,
• основные результаты,
• источник финансирования НИР,
• этапы НИР.
Структура организации наукометрических данных в системе «ИСТИНА» проста, информационные объекты снабжены гиперссылками, что позволяет переходить от одного объекта к другому и связывает результаты исследования с их участниками, в том числе с соавторами и подразделениями института. Однако наряду с положительной характеристикой информационная система «ИСТИНА» имеет несколько существенных недочетов. Во-первых, система имеет ограниченные поисковые возможности, что снижает скорость обнаружения информации. Во-вторых, информацию в систему добавляют сами сотрудники организации, что отражается на корректности вносимых данных (в частности ошибки в библиографическом описании) [19]. В-третьих, статистическая информация доступна только зарегистрированным пользователям.

Организация наукометрической информации на сайтах научно-исследовательских институтов

Учитывая, что применение информационных систем для организации научно-исследовательской деятельности института остается весьма редким явлением, рассмотрим отдельные элементы наукометрических данных, представленные в виде HTML-страниц на сайтах организации. Наукометрическая информация об исследовательской деятельности учреждения на сайте, как правило, представлена в трех блоках:
• данные о проектах, в рамках которых учреждение ведет научную деятельность;
• информация о сотрудниках, которые осуществляют исследовательский процесс;
• метаданные публикаций, как подтверждающий результат исследовательской деятельности.

Научные проекты

На сайте информацию об исследовательских проектах размещают 73,7 % научно-исследовательских институтов. Однако не всегда эта информация отражена в полном объеме, с указанием названия проекта / гранта, номера государственной регистрации, финансирующей организации, руководителя, участников, сроков выполнения, программы фундаментальных исследований, цели, актуальности, задач, ожидаемых результатов и т. д.). Набор данных чаще всего представлен кратко, у большинства институтов информация об исследованиях отражена в виде перечня научных направлений деятельности – 38,7 %. Карточку проекта с подробной информацией о нем создают всего 69 институтов (15,8 %) (рис. 1). Информация о финансировании дается не всегда, такие данные отражают на сайте 143 научно-исследовательских института (32,6 %).
Данные о коллективе участников проекта / гранта не связана с профилем сотрудника института, где представлены подробные данные об исследователе, что свидетельствует о слабой организации гиперссылок, что в результате сказывается на качестве предоставляемых данных, затрудняя их оценку.

Персональная информация о сотрудниках

Анализ показал, что список сотрудников, осуществляющих научно-исследовательскую деятельность формируется на сайтах 74,9 % институтов, соответственно на 110 сайтах (25,1 %) такая информация отсутствует. Важными атрибутивными элементами, которые воссоздают авторский профиль, являются: ФИО, должность, отдел или подразделение института, образование, научные интересы, стаж работы, основные публикации, идентификаторы ученого в системах РИНЦ, Scopus, Web of Science, ORCID, ResearchGate и т. д. Профиль автора формируют на сайтах научно-исследовательских институтов (56,1 %). Анализ персональных страниц сотрудников показал, что организация страниц неоднородна. С одной стороны, на процесс организации данных может влиять человеческий фактор: наполнение страниц осуществлялось в разное время, работу по добавлению информации на сайте вели разные сотрудники. С другой стороны, представленные данные объективны и отражают лишь наличие персональных данных конкретного сотрудника, опуская информацию для заполнения отсутствующих атрибутивных элементов (сотрудник не имеет ученой степени, ученого звания, наград, премий, членства в научных сообществах, идентификатора и т. д.).
Анализ профилей сотрудников проводился на базе профилей 179 институтов, так как доступ к персональным данным сотрудников на 5 сайтах закрыт. На основании полученных данных составлена таблица, которая показала, какие сведения являются приоритетными для организации профиля научного сотрудника на официальном сайте института (таблица 1).

Таблица 1. Информационное наполнение профилей научных сотрудников на сайтах научно-исследовательских институтов

Таким образом, мы наблюдаем, что персональные данные сотрудника на сайтах представлены как в краткой, так и в полной форме. Можно выделить четыре информационные области, в рамках которых отражаются персональные данные сотрудника: общие сведения (ФИО, должность, отдел / подразделение, информация об образовании, стаж работы, степень, звание, контакты); научная деятельность (научные интересы, участие в научно-исследовательской работе, наукометрические показатели, список публикаций, участие в конференциях, членство в составе отделений, секций, редколлегий журналов, ученых и диссертационных советов); учебная деятельность (повышение квалификации, преподаваемые дисциплины); информация о достижениях (награды, премии, благодарности). Анализ контента профилей научных сотрудников позволил определить, какие из перечисленных персональных данных обязательные (большинство институтов формируют эти сведения на страницах официального сайта института), а какие дополнительные (факультативные) (таблица 1). Наличию обязательных сведений о сотруднике на сайте уделяют 80–100 % научно-исследовательских учреждений. Остальной перечень данных имеет избирательный характер представления на сайте, в том числе данные, идентифицирующие ученого в Scopus, Web of Science, РИНЦ, ORCID, ResearchGate и т. д. (39 %), информация об участии в научно-исследовательской работе (31 %), наукометрические данные (14 %).

Публикации

Результаты исследований представляют собой продукт научной деятельности, зафиксированный в публикациях. Списки публикаций представлены на сайте 76,9 % научно-исследовательских институтов, такая тенденция является одним из обязательных условий к отчетности, исходящих от финансирующей стороны. Многие научно-исследовательские институты на сайте размещают списки публикаций на страницах сотрудников института, а также на страницах в разделе «Наука», где размещают в том числе отчеты о научной деятельности организации. На странице ученого результаты его работы представлены в виде перечня основных работ (ограниченный список). В качестве отчета о результатах научной деятельности организации список публикаций, как правило, формируется по годам, для воспроизведения прохождения этапов исследований по проекту. Представление списка публикаций на HTML-страницах сайта как в первом, так и во втором вариантах представляет собой формальный набор данных, который не предполагает абсолютной связи между формируемыми элементами (авторы, соавторы, название статьи, наименование журнала, внешний источник, ключевые слова и т. д.). Поэтому структурировать данные на основании поискового запроса не представляется возможным. Такая организация научных данных уступает информационным системам, созданным на базе программного обеспечения с открытым исходным кодом, в частности DSpace, которое используется для создания репозиториев. По данным OpenDOAR на май 2022 г. в России создано 33 репозитория, из них 24 репозитория функционируют на программном обеспечении DSpace [21].
Тенденция открытого доступа способствует улучшению видимости публикаций, повышению их цитируемости, о чем свидетельствуют проводимые исследования [22, 22]. Влияние открытого доступа привело к тому, что мы сегодня наблюдаем стремление научно-исследовательских учреждений предоставить на сайте доступ к текстам научных исследований с возможностью скачать полный текст или открыть документ на внешнем источнике данных (РИНЦ, Scopus, Web of Science, ORCID и т. д.). Метаданные документов на страницах сайтов научно-исследовательских институтов все чаще представлены в виде таких цифровых идентификаторов, как DOI, ORCID, ResearcherID, Publons и т. д.
Качество данных публикационной активности сотрудников института напрямую зависит от участия библиотеки в этом процессе. Библиотека является незаменимым помощником в подготовке релевантных проверенных данных. Подготовленная силами библиотеки информация позволит избежать ошибок в оценке публикационной активности сотрудников института.

Заключение

Наши наблюдения показали, что вопрос развития информационных систем, как источника информации о научных разработках организации и ученых, остается на сегодняшний день открытым. За рубежом накоплен существенный опыт применения CRIS для учета результатов научно-исследовательской деятельности, разработаны информационные системы европейского (EuroCRIS) и национального уровней в Норвегии, Бельгии, Италии, Германии, Исландии, Дании, Швеции и других европейских странах.
В России дела обстоят несколько иначе, число научно-исследовательских институтов, которые имеют собственные разработки CRIS или формируют информацию об интеллектуальной деятельности ученых на отечественных информационных платформах «ИСТИНА», «Соционет», на текущий момент незначительно. Результаты исследования свидетельствуют, что в качестве платформы для регистрации и учета результатов научно-исследовательской деятельности институты используют сайты и базы данных трудов сотрудников. Это является доказательством того, что создание и развитие информационных систем довольно трудоемкий процесс, для реализации которого требуются человеческие ресурсы, техническое обеспечение и финансовые вложения.
В развитии CRIS библиотека, зарекомендовавшая себя как активный участник процесса управления информацией, может оказать помощь в решении следующих задач:
1) генерирование и организация данных о публикационной активности ученых;
2) формирование репозиториев с возможностью слияния данных с информационными системами, в частности CRIS;
3) предоставление релевантной информации ученым;
4) обеспечение ученых проверенными данными;
5) сверка идентификаторов сотрудников в международных и российских базах данных РИНЦ, Scopus, Web of Science, ORCID и т. д.;
6) осуществление консультаций по организации и ведению профиля организации и авторского профиля в информационных системах;
7) разработка методических инструкций по ведению авторского профиля (ввод и редактирование метаданных) в информационных системах CRIS и базах данных РИНЦ, Scopus, Web of Science, ORCID и т. д.
Таким образом, библиотека является незаменимым звеном в управлении исследовательским процессом, вовлечение библиотеки в этот процесс воздействует не только на повышение уровня результатов исследований, но и влияет на объективность оценки эффективности научно-исследовательской деятельности организации.