Учредитель журнала

Информационные объекты цифровой гуманитаристики: вопросы типологии

УДК 004.65

DOI 10.52815/0204-3653_2023_1190_56
EDN: SSCEVU

Антопольский Александр
Главный научный сотрудник ИНИОН РАН д. т. н., профессор.
E-mail: anna.gorshik@yandex.ru

Введение

Цифровая гуманитаристика (Digital Humanities, DH) – быстро развивающаяся дисциплина. К началу 2020‑х гг. в университетах и научных организациях мира создано не менее 700 центров, которые проводят исследования, создают ресурсы и инструментарий, а также обучают студентов по этой дисциплине. Активно функционируют международные ассоциации DH, издаются журналы, проводятся конференции, реализуются национальные и международные программы. В тоже время сфера и границы DH пока не определены достаточно четко, а дисциплина пока отсутствует в основных классификациях наук. Также в процессе становления находится терминология и понятийная структура DH, хотя группа европейских специалистов разработала проект таксономии DH, получившей название TADIRAH []. Подробнее этот проект обсуждается ниже.
ИНИОН РАН и Сибирский федеральный университет (СФУ) заключили соглашение о создании справочно-­информационной системы по цифровой гуманитаристике (СИС ЦГ) []. В рамках этого проекта для пилотной версии системы было создано два экспериментальных массива данных об интернет-­ресурсах ЦГ примерно одинакового объема – около 5 тыс. описаний объектов каждый.

Область исследования

Первый массив включал сведения о зарубежных объектах DH. Этот массив включал организации (институции), входящие в национальные и международные программы и ассоциации DH, сами эти ассоциации, а также осуществляемые ими проекты, созданные ресурсы, используемые инструменты и проч., т. е. общий принцип отбора – субъективное признание акторами данной сферы своей причастности к DH и, соответственно, включение в область DH создаваемых ими продуктов и инструментов.
Второй массив включал отечественные организации и объекты DH. Однако, поскольку в России лишь очень немногие структуры относят себя к этой области, мы сочли возможным включить в экспериментальный массив данных цифровые продукты, создаваемые в академических организациях и вузах гуманитарного профиля и в институтах памяти (библиотеки, архивы, музеи), а также соответствующие институции. При этом критерии, используемые нами, могут быть признаны дискуссионными. Например, при обсуждении проекта задавался вопрос, насколько правомерно отнести к сфере DH широкий круг ресурсов компьютерной лингвистики, как это делает автор данной статьи. Вероятно, далеко не все компьютерные лингвисты с этим согласятся. То же относится к областям музейной информатизации, цифровой музыке, цифровому изобразительному искусству и др., которые не всегда могут быть отнесены к области «цифровых гуманитарных исследований», как часто переводят Digital Humanities.
С другой стороны, тематика DH, определяемая зарубежными акторами субъективно, часто выходит за границы традиционной гуманитарной сферы, включая, например, вопросы экологии, здравоохранения, урбанистик и другие вопросы социальных и даже естественных наук. Более подробно эти вопросы рассмотрены в работах автора [] и []. В перспективе проблемы разумных тематических границ СИС ЦГ предполагается решить на основе практической эксплуатации этой системы с учетом интересов ее пользователей.

Основная типология объектов DH

Анализ объектов DH, сделанный на зарубежном опыте, показал, что эти объекты делятся на очевидные четко выделяемые (за некоторыми исключениями, которые мы рассмотрим ниже) типы. Всего их было выделено шесть:

  1. Институции DH, включая ассоциации, консорциумы, учреждения, департаменты учреждений и исследовательские коллективы.
  2. Информационные ресурсы, понимаемые широко (сайты, порталы, цифровые массивы, коллекции, базы данных, документы, изображения, проч.).
  3. Программные средства (инструменты), создаваемые или используемые в проектах и институциях DH.
  4. Сервисы, реализуемые для обслуживания DH или поддерживающие важные для DH технологии.
  5. Нормативно-­технологические непрограммные средства, используемые при создании ресурсов и сервисов DH (нормативы): стандарты, методики, форматы, метаданные, языки разметки.
  6. Прочие проекты в сфере DH, которые не могут быть отнесены к вышеперечисленным типам объектов.

На этапе эксперимента каждый объект был отнесен к только одному типу. Этот подход определялся технологией отбора и дальнейшей организации баз данных. В некоторых случаях это приводило к дискуссионным решениям. В перспективе можно будет в спорных случаях относить объект к двум типам, тем самым снимая неопределенность за счет дублирования.
Конечно, разделение объектов DH на 6 типов является слишком грубым. По крайней мере, этой типологии недостаточно для поиска аналогов, что является, вероятно, основной задачей СИС ЦГ. Для сравнения можно привести перечень типов информационных объектов таксономии TADIRAH который приводится в таблице 1.

Таблица 1. Объекты DH по TADIRAH

При анализе этого перечня возникают разнообразные вопросы. Во-первых, в этом перечне отсутствуют такой важный для нас тип объекта как институции DH, хотя объект Персона, также представляющий актора в сфере DH, присутствует. Впрочем Персона может представлять как актора DH, например, создателя ресурса, так и объект DH, например, знаменитость, которой посвящена коллекция или музей.
Во-вторых, есть проблемы с интерпретацией типов. Так, сложно различать такие типы объектов как Проекты, Исследования, Процесс исследования, Результаты исследований. Неясно соотношение понятий Программное обеспечение и Инструменты. Что за объекты Взаимодействие или Методы?
В-третьих, в этом перечне в едином ряду представлены понятия самых разных категорий, от тематических рубрик до абстрактных понятий, что кажется не очень удобным для индексирования.
Таким образом, применять перечень типов TADIRAH непосредственно для индексирования объектов DH было признано нецелесообразным. Но то, что необходимо определить вид объекта более конкретно, представляется очевидным. При этом исходное разделение на основные типы является важным и полезным, поскольку видовое деление существенно различается для разных типов. Поэтому было принято решение проводить видовое деление объектов DH при помощи отдельного фасета.

Специфика типологии отечественных объектов DH

Различие в методике отбора объектов отечественной сферы DH по сравнению с зарубежными, оказалось существенным и для типологии этих объектов. Прежде всего это касается количественного распределения типов, что показано в таблице 2.

Таблица 2. Распределение по типам информационных объектов DH

Этому различию имеются очевидные объяснения. При подготовке зарубежных данных среди других источников был использован каталог инструментов DH под названием TAPOR [], что дало высокую полноту отражения этого типа объектов. В России такого источника нет.
Участники зарубежной DH гораздо чаще разрабатывают нормативные средства, такие как стандарты, языки разметки, системы метаданных, чем отечественные. Российские разработчики в основном используют готовые средства, в том числе зарубежные.
Различие в доле проектов связано с несколько другой интерпретацией объектов данного типа для зарубежной DH, чем для отечественной, т. е. носит субъективный характер.

Видовой и количественный состав объектов DH

Выше мы указывали, что для разных типов объектов DH характерны различные способы видового деления. Далее они будут рассмотрены отдельно для каждого типа. Следует учесть, что предлагаемый способ видового деления ресурсов носит предварительный характер, поэтому фактически для представления вида объектов использовались ключевые слова, которые предстоит формализовать, вероятно, в тезаурусной форме. Для зарубежных объектов типа Институции адекватным способом классификации оказалось указание страны, с выделением международных и европейских структур, а для отечественных – фактически встреченные виды учреждений.
Кроме списка полученных видов объектов далее в таблицах приводится количество объектов данного вида. Эти данные будут полезны для формирования окончательного списка видов объектов DH.

Институции

Распределение зарубежных институций по странам приводится в таблице 3.

Таблица 3. Распределение по странам институций DH

Для российских институций это, очевидно, не подходило. Поэтому для этого класса объектов был принят перечень видов институций, фактически встреченных в экспериментальном массиве. Этот перечень приводится в таблице 4.

Таблица 4. Виды российских институций

Информационные ресурсы

Как показано выше наиболее распространенным типом информационных объектов DH являются информационные ресурсы. На них приходится свыше 40 % зарубежных и свыше 70 % отечественных объектов DH. Этот тип является и самым разнообразным; общий список ключевых слов, полученных в эксперименте и определяющих виды ресурсов, превышает 200.
В таблице 5 приводится алфавитный перечень наиболее частотных видов ресурсов (N > 20) с указанием числа объектов, зарубежных (Nз) и отечественных (Nот), отнесенных к этому виду.
Очевидно, что значительный разброс по количеству отдельных видов ресурсов между отечественной и зарубежной выборок определяется различием подходов к отбору объектов.

Таблица 5. Виды частотных информационных ресурсов

Например, выставки -характерный вид ресурсов для музеев, но зарубежные центры DH цифровых выставок не создают. То же относится к очеркам – вид ресурса, характерный для отечественных музеев и библиотек.
Конечно, предлагаемое видовое деление носит предварительный и возможно, условный характер. Рассмотрим, например, такой вид ресурсов как электронные библиотеки (ЭБ). К этому виду могут быть отнесены самые разнообразные собрания или коллекции произведений – от информационных систем с богатыми функциональными возможностями до случайных подборок цифровых копий документов. Часто к ним относят, например, коллекции собственных изданий учреждения. Недаром существующие каталоги российских электронных библиотек имеют значительный разброс – от нескольких десятков до 4 тыс.

Инструменты

Под инструментами в данной работе понимаются программные средства (ПС), создаваемые или используемые в сфере DH. Мы выше упоминали известный каталог TАPOR, который использовался как один из источников в описываемом проекте. В этом каталоге применяется несколько классификаций ПС, которые можно также использовать в качестве фильтров при поиске в каталоге. Мы приводим здесь основную классификацию TАPOR (тип анализа), а также фасеты видов деятельности и методов по таксономии TADIRAH, которые также используются в TАPOR. Следует учесть, что в этой таксономии Методы и Виды деятельности частично привязаны друг к другу, поэтому имеются такие методы как Другое (с указанием вида).

Тип анализа

Анализ
Аннотирование
Захват
Сотрудничество
Анализ контента
Создание
Открытие
Распространение
Обогащение
Сбор
Интерпретация
Моделирование
Обработка естественного языка
Организация
Программирование
Публикация
RDF
Поиск
Хранение
Без категории
Визуализация

Виды или цели деятельности (в соответствии с TADIRAH)

Анализ
Захват
Создание
Распространение
Обогащение
Интерпретация
Хранение

Методы (в соответствии с TADIRAH)
Аннотирование
Архивирование
Очистка
Сотрудничество
Комментирование
Общение
Анализ контента
Контекстуализация
Преобразование
Краудсорсинг
Распознавание данных
Проектирование
Открытие
Редактирование
Сбор
Идентификация
Визуализация
Моделирование
Сетевой анализ
Организация
Другое (анализ)
Другое (захват)
Другое (создание)
Другое (распространение)
Другое (обогащение)
Другое (интерпретация)
Другое (хранение)
Сохранение
Программирование
Публикация
Запись
Реляционный анализ
Совместное использование
Пространственный анализ
Статистический анализ
Структурный анализ
Стилистический анализ
Теоретизирование
Транскрипция
Перевод
Без категории
Визуализация
Веб-разработка
Написание

Кроме того, в TАPOR применяются такие фасеты, как тип лицензии, возможность работы в фоновом режиме, возможность использования в интернете, простота использования, вхождение в семейство, состояние или статус ПС, время создания ПС и ряд других. Все используемые значения классификаций и другие ключевые слова, использованные при формировании каталога, сведены в фильтр Теги, в котором не менее 500 ключевых слов.
Для сравнения ниже приводится перечень ключевых слов, использованные для индексирования объектов типа Инструменты в описываемом эксперименте.

3D
CAT
NLP
VRE
XML-файлы
АБИС
Анализ данных
Анализ речи
Анализ сетевых данных
Анализ ссылок
Анализ текста
Аннотирование
Анонимизация
Аудио
Базы знаний
Библиографии
Библиометрия
Большие данные
Веб-анимация
Веб-дизайн
Веб-публикации
Векторная графика
Видео
Визуализация.
Виртуальная реальность
Геоданные
ГИС
Грамматические ресурсы
Грамматический анализ
Графическая среда
Данные, наборы
Диалог
Диахрония
Извлечение данных
Изображения
Индексирование
Инструменты DH
Инструменты исторической информатики
Инструменты разметки
Инструменты статистики
Инфографика
Информационное обслуживание
ИПС
Искусственный интеллект
Исчезающие языки
Карты знаний
Кодирование
Коллективная работа
Компиляция контента
Комплексная обработка
Конечные автоматы
Конкордансеры
Контент-­анализ
Корпусной анализ
Лексический анализ
Лемматизация
Машинный перевод
Медиа
Метаданные
Модели данных
Моделирование,
Морфологический анализ
Музейные коллекции
Мультимедийный контент. Форматы
Обогащение контента
Определение авторства
Орфокорректор
Отслеживание обновлений
Оценка ресурсов
Оцифровка
Очистка данных
Очистка контента
Памятники, рукописи
Периодика
Платформа блогов
Платформа опросов
Платформа репозитория
Порталы
Поэтика
Программирование
Просмотр корпуса
Просодический анализ
Распознавание языков
Репозитории
Сайты мероприятий
Сайты проектов
Сбор (захват)
Связанные данные
Сегментация
Семантический анализ
Сентимент-­анализ
Символьная обработка
Синтаксический анализ
Сканирование
Словари
Создание контента
Сохранность
Сравнение информационных объектов
Статистический анализ
Стилометрия
СУБД
Таксономии, онтологии
Текстовый редактор
Текстология
Техническое письмо
Технология блокчейн
Транскрибирование
Управление данными
Управление документами
Управление корпусами
Управление проектами
Учебные ресурсы
Фильтрация
Фонетический анализ
Форматные конверторы
Хроноинструменты
Цифровая музыка
Цифровая филология
Цифровые игры
Цифровые издания
Шрифты
ЭБ
Этимология
Языки разметки
Языковые БД

Очевидно, что этот перечень не может рассматриваться как инструмент видового деления инструментов DH, поскольку в нем присутствуют термины разных семантических категорий и разной степени общности. Некоторые при этом могут относиться и к другим типам информационных объектов, а вопрос об использовании полиерархии в перспективном ИПЯ СИС ЦГ остается открытым.

Сервисы

Данный тип объектов DH является наименее разработанным. При отборе зарубежных объектов к нему мы относили в основном инфраструктурные службы, обслуживающие сферу DH, например, службы идентификации, поисковые системы общего профиля, методичеcкие и консультативные службы. Вопрос о включении в проект образовательных услуг пока остается открытым. Неясен также вопрос о типе справочных систем, каталогов, репозитариев и других собраний информационных ресурсов и инструментов DH, нужно ли относить эти собрания к типу ресурсов или сервисов. В результате, отобранные в этот тип зарубежные объекты выглядят достаточно субъективно. Вероятно, что разумным будет решение о возможности отнесения некоторых объектов DH к двум типам.

Старая библиотека
Источник: Jamie Taylor / unsplash.com

При отборе российских объектов проблема определения понятия сервисов сферы DH была еще сложней. Инфраструктурных служб для поддержки проектов и исследований в данной сфере практически не создано. С другой стороны, институты памяти (библиотеки, музеи и архивы) имеют традиционную и развитую область услуг, которая в основном осуществляется в офлайне, но постепенно некоторые услуги переносятся в интернет. С другой стороны, как правило, эти услуги являются типовыми и осуществляются всеми или многими институтами данного профиля. Например, все музеи осуществляют экскурсионное обслуживание, а библиотеки – справочно-­библиографическое обслуживание. Включать типовые услуги институтов памяти в справочную систему мы сочли нецелесообразным, а цифровые оригинальные услуги оказались весьма редки.
Ниже приводится перечень ключевых слов, присвоенных объектам типа Сервис в ходе эксперимента. Очевидно, что этот перечень носит предварительный характер и сформировать корректную таксономию сервисов в сфере DH еще предстоит.

CAT
Анализ текста
Аннотации
Антиплагиат
Археологические коллекции
Библиография
Веб-публикации
Генеалогия
ГИС
Идентификаторы
Информационное обслуживание
Инфраструктура
ИПС
Краеведение
Машинный перевод
Музейные коллекции
НТИ
Обогащение контента
Оцифровка
Перечень услуг
Порталы
Поэтика
Прейскурант
Регистры ресурсов
Репозитории
Сайт проекта
Семантический анализ
Символьная обработка
Создание контента
Стандарты
Тестирование
Транскрибирование
Управление документами
Учебные ресурсы
Фольклор
Хостинг
ЭИОС
Экспертиза
Энциклопедии
Языковые БД

Нормативы

Этот тип объектов DH, в отличие от предыдущего определен достаточно четко. К этому типу отнесены непрограммные средства, которые используются при создании информационных ресурсов в сфере DH. Ниже приводятся ключевые слова, использованные для данного типа объектов.

3D
Аннотации
Библиографии
Идентификаторы
Карты знаний
Кодирование
Метаданные
Методики, инструкции
Описания языков
Связанные данные
Словари
Стандарты
Таксономии, онтологии
Форматы
Языки разметки

К числу нерешенных вопросов по данному типу объектов относятся словари и различные средства представления знаний (тезаурусы, классификации, таксономии, онтологии) которые могут быть результатами исследований и тогда рассматриваться как информационные ресурсы, а могут использоваться в качестве нормативных средств при формировании информационных ресурсов.

Проекты

Проекты являются наиболее распространенным способом организации деятельности в сфере DH, однако чаще всего основным результатом проекта являются информационные ресурсы. В нашем эксперименте было решено информационные ресурсы рассматривать как самостоятельный тип объекта, поэтому типу объектов проекты DH носят остаточный характер. В этой связи видовое деление проектов DH наиболее естественно осуществлять по тематике. Для этой цели мы использовали существенно дополненный рубрикатор ГРНТИ. Анализ применимости этого инструмента для сферы DH был проведен в другой работе автора [4].

Заключение

Описанный в настоящей статье анализ типологии объектов DH имеет две основные цели, первичную и перспективную. Первичная цель – это разработка адекватного поискового инструмента (ИПЯ) для проектируемой справочно-­информационной системы для цифровой гуманитаристики. Для решения этой задачи, кроме анализа и систематизации понятийно-­терминологического пространства, важным фактором являются поведение и интересы пользователей этой системы. Это касается тематического и видового состава объектов системы, характера запросов, учета сложившегося в данной сфере языка, наличие эффективной обратной связи с пользователем. Также будут иметь значение структура интерфейса и функциональные возможности поиска.
Перспективная цель – это заложить основы для разработки русскоязычной онтологии такой предметной области, как цифровая гуманитаристика. Подобная онтология может использоваться в самых разнообразных проектах и системах, служить важным инфраструктурным инструментом цифровизации широкого круга дисциплин. Однако для достижения этой цели крайне важна широкая коллаборация не только цифровых гуманитаристов, включая компьютерных лингвистов, специалистов по исторической информатике, цифровой филологии, археологии, эпиграфике и другим дисциплинам, но и широкого круга разработчиков информационных систем музеев, библиотек, архивов. К сожалению, организационная основа для подобной коллаборации в России пока отсутствует.
Одним из актуальных проблем разработки онтологии цифровой гуманитаристики является коллаборация с международным сообществом. В частности, требуется проанализировать опыт применения и оценить перспективы существующих международных концептуальных систем, таких как рассмотренная выше таксономия TADIRAH и определить оптимальную степень совместимости с ними русскоязычной онтологии по цифровой гуманитаристике.