Учредитель журнала

Противостояние угрозам телефонного мошенничества средствами искусственного интеллекта

УДК 004.89
EDN: TPDEUJ

Конторович Владислав
Научный руководитель, департамент анализа данных и машинного обучения, факультет информационных технологий и анализа больших данных, Финуниверситет, к. э. н.
E-mail: vkkontorovich@fa.ru

Кураев Антон
Старший преподаватель, департамент информационной безопасности, факультет информационных технологий и анализа больших данных, Финуниверситет.
E-mail: aakuraev@fa.ru

Бобровский Дмитрий
Аспирант, департамент информационной безопасности, факультет информационных технологий и анализа больших данных, Финуниверситет.
E-mail: dabobrovskij@fa.ru

Шелягин Александр
Стажер-­исследователь, департамент информационной безопасности, Финуниверситет.
E-mail: aashelyagin@fa.ru

Плешакова Екатерина
Департамент информационной безопасности, Финуниверситет, к. т. н.
E-mail: espleshakova@fa.ru

Гатауллин Сергей
Декан фак-та цифровой экономики и 
массовых коммуникаций, МТУСИ, к. э. н.
E-mail: s. t.gataullin@mtuci.ru

Введение

Телефонное мошенничество становится все более распространенной проблемой во многих странах мира. Чтобы эффективно обнаруживать телефонное мошенничество, мы представляем новую схему обнаружения, которая использует метод машинного обучения. Чтобы понять сказанное человеком, нужно сделать лишь одну вещь – быть человеком. В настоящее время роботу не под силу понять поток человеческих мыслей, но это явно не значит, что нельзя научить робота понимать азы людской речи [1]. Для нашего проекта было необходимо научить модель данных классифицировать слова по их эмоциональным оттенкам. Так, предполагалось, что в речи настоящего банковского сотрудника нет эмоционально окрашенных слов, потому что все диалоги с клиентами проходят по определенным клише, работнику нельзя выражать свои эмоции по отношению к клиенту, так как работник представляет интересы компании, что обязана иметь социальный имидж [2]. Тем более, сотрудник не может выражать негативные эмоции к клиенту. Именно этим запретом и пользуется модуль анализа эмоций по фразе. Стоит заметить, что подобным модулем можно не только вычислять мошеннических персон, но и контролировать качество обслуживания у различных сервисов [3].
Мошеннические звонки получили такие развитие, что их почти невозможно отличить от законных звонков. В результате таких атак число жертв такого мошенничества неуклонно растет. Более того, содержание звонка, т. е. то, как мошенники разговаривают, и термины, которые они используют, неотличимы от законных звонков. Следовательно, людям, которые не знают, идентифицировать такие звонки как мошенничество сложно. Поэтому существует острая необходимость в эффективных решениях, помогающих обнаруживать и предотвращать эти мошеннические звонки [5–7].
Модуль анализа эмоций по фразе базируется на модели, обученной на открытом датасете fast-text-social. Данный датасет был призван обучать модели, нацеленные на распознавание человеческого языка. После обучения модель получила возможность оценивать слова и словосочетания, распознавать их как негативные или положительные, нейтральные или несущественные [8–9]. Сама идея создания подобной библиотеки была весьма положительно принята обществом IT. Обработка естественного языка – она из самых востребованных задач, преследуемых нынешним обществом программистов. Подобная технология способствует прогрессу всех современных специализаций. Так, появилась библиотека Dostoevsky, что была обучена на большом сете данных, вмещающем в себя всевозможные русскоязычные слова, разобранные по оттенкам. У используемой библиотеки большое количество положительных черт, из-за которых наш выбор пал на нее:

  1. У библиотеки нет более эффективных аналогов, пригодных для нашей задачи.
  2. Она находится в свободном доступе.
  3. Команда разработчиков модели, обученной на датасете – наши соотечественники, что означает наилучшую поддержку современных версий.
  4. Помимо отсутствия аналогов, библиотека может похвастаться завидной точностью в определении эмоций.

После оценки, результаты записываются в другую, оригинальную, с нуля обученную модель, способную различать разговор как мошеннический при достаточном количестве негативных слов. Модель использует метод k-соседей, неоднократно применяемый в нашем исследовании.
В качестве используемых данных были взяты разговоры мошеннических лиц с жертвами мошенничества [10]. Стоит заметить, что качество текстов находится на очень низком уровне, но это самый распространенный вариант предоставления информации. Искажения голоса в трубке вкупе с искажением записи голоса на видео, умноженное на непригодные акценты некоторых лиц дают весьма пугающий результат. Так, один из экземпляров датасета:
«авот распутина чп оттуда здравствуйтесергей александровичвас беспокоит прокуратурысеверо-­восточного округа города москвысоветник юстиции суворова александрсергеев пару вопросов имеетсяформального характера давайте сюда сновапоехализначит так беспокоиться о вас поотношению судебного постановления заномером 0 1 3/9 от 7 февраля 19 года онапостановление суда знакомились на рукахимеется у васдальше говоритя задала вопрос постановление на руках увас имеетсяначале 19‑го года бам отравляливосстановление информации что у васпризнали пострадавшим лицом откоммерческих организаций медицинскогохарактераникто менясергей александрович мне скажете выранее по интернету или по рекламеприобретали ­какие-либо препаратылечебного характеране приобреталне приобретались всего доброго’, ‘связался с вами касательно такоговопросабеспокоит вас технич я дня успех банказавод меня любого александр николаевичс вами касательно такого вопросаскажите в 10 минутах от подавалисьзаявку на смену финансового номерателефона также заявку на перевод 20000руб­лей вашего единого лицевого счетаединого лицевого счета заиди на лицевой счет это внутри банковеще сказали все пит себя все банковскиеструктуры со всеми финансовыми целямитакими как кредитные карты дебетоваякарта вклады от двигательные книги авы мне откуда такой странынуженчто он так вот сказал сахалинговорю кто вам такое сказал что его несуществуетна сопроводите центрального банка россиичто еще какчто вам надо от меняукраинаданным банкомнетдасильва лицевогосчета он такое сказал или сказал чтосуществуетданный банк будет индекс ваша до 2020годов и для вас дляцентрального банкаграницу еще раз россии существуетединого лицевого счетасуществуютбылосуществуют главное словами забыладоказан я занимаюсь федерации былосказано информация в едином лицом всепонимаю японимаю что выпытать у меня нанимать».
Стоит заметить, что представленный текст хоть и выглядит абсолютно непонятным, имеет всю необходимую информацию для анализа представленными моделями.
В качестве первичной оценки используется метод открытой библиотеки Dostoevsky, носящий название predict [11]. Используя переданные «веса», метод дает оценку исследуемому объекту, возвращая либо единый ответ, либо доли эмоциональных оттенков изучаемого экземпляра. Стоит заметить, что, изменяя параметры, можно задавать глубину оценки. Так, предупредив модель о наличии негативного оттенка, можно получить слегка отличающийся результат. К примеру, если сообщить модели об условии контекста, модель может увеличить некую составляющую оценки [12]. Стоит заметить, что модель способна различать не только слова, но и устойчивые словосочетания. Значит, при грамотной настройке, модель способна дать максимально точный ответ, возможный в текущей ситуации.
В качестве вторичной оценки используется модель машинного обучения, получившая «веса» с помощью сета данных, построенного на оценках модуля Dostoevsky [13–14]. Проанализировав количество негативных слов в исследуемых текстах и непричастных к теме текстах, модель может дать оценку вероятности наличия в изучаемом тексте мошеннических намерений. Модель использует метод k-ближайших соседей, который оказался самым эффективным в текущем исследовании.

Метод ближайших соседей k-neighbors (KNN)

Данный метод представлен на языке Python при помощи Sklearn, данная библиотека появилась в 2007, она была разработана David Cournapeau и написана на языках Python, C, C++, Cython. Использование при разработки данного модуля языки C, C++ позволили в разы увеличить скорость обработки информации, которые получают методы этой библиотеки. Sklearn – самая популярная библиотека для Data Science и Machine Learning [15–17].
Несмотря на то, что Sklearn не реализует все, что связано с машинным обучением, данная библиотека идеально подходит для нашей задачи – проанализировать входные данные и при помощи метода k-neighbors, который обучен на имеющихся у нас разговорах мошенников и сотрудников банков.

Рис. 1. Пример работы метода

Поскольку метод k-neighbors не требует обучения перед тем, как сделать прогноз, это позволяет импортировать в данную библиотеку уже обученную модель. Алгоритм KNN намного быстрее, чем другие алгоритмы, которые в свою очередь требуют обучения перед использованием. Также этот метод можно дообучить, что приведет к более точному ответу. В связи с этими плюсами и был выбран данный алгоритм для реализации этого проекта. Несмотря на то, что этот метод плохо работает с данными высокой размерности, это и не требуется, так как на входе метод получает уже обработанные и уменьшенные в размерах сеты данных.

Рис. 2. Работа приложения

По итоговым ответам текущая модель обошла в точности всех остальных представителей других модулей. Средняя точность модели – 92 %.
Используемый модуль может найти весьма широкое распространение в аналитике разговоров. Значимая часть телефонных мошенников – не сильно уравновешенные в эмоциональном плане люди. От тональности голоса до ошибок в речи – необученный человек не может полностью подражать людям, заучившим текста, соответствующие политике компаний. Сложно сохранять спокойный тон голоса, не имея большой опыт в данной сфере. Все это приводит к более яркой эмоциональной окраске монолога настоящего мошенника.
В качестве одного из методов оценки точности модели анализируется ее матрица ошибок. Среди тестового датасета проводится исследование, результаты записываются в качестве квадратной матрицы размерности r=2.
Так, с помощью подобной матрицы, мы можем увидеть сколько раз классу 1 присвоилось значение класса 1 и сколько раз классу 1 присвоилось значения класса 2. Ровно так же наоборот, можно увидеть, сколько раз верно был отгадан экземпляр второго класса, и сколько раз – ложно.
В качестве класса 1 и класса 2 используются мошеннические текста и текста представителей настоящих государственных банковских учреждений.
Из этого мы можем сделать вывод, что тексты мошенников были угаданы верно весьма значимое количество раз (цифра 30). Тексты банковских представителей были угаданы значительно меньшее количество раз (верхний левый угол – 5), но не потому, что модель плохо различает классы – количество мошеннических разговоров было значительно больше альтернативного предмета исследования. Зато отлично можно судить о том, как точно работает модель, если посмотреть, сколь мало было ошибок допущено в классификации – (правый верхний и левый нижний углы). Общее количество верно отгаданных результатов значительно преобладает над неудачными попытками.

Модуль анализа динамики разговора

Описанный ранее модуль Dostoevsky был использован не только для того, чтобы трактовать текст как эмоции. Помимо этого, есть еще одна значимая вещь, которую смог помочь определить этот модуль – динамику разговора. Ни для кого не секрет, что очень часто злоумышленники пытаются ввести жертву в состояние паники, чтобы потом предложить «наилучший» путь решения столь спокойно, что смена настроения заставит жертву поверить в эффективность этого пути. Когда человек видит короткий путь, он всегда желает по нему пойти. К сожалению, не всегда короткий путь ведет к нужной цели.
Модуль анализа динамики разговора имеет схожий с вышеописанным модулем алгоритм, но и точность, и условия эффективности этого метода сильно отличаются от первого примера. Вместо количества негативных слов в тексте модели подается динамика появления негативных слов в тексте. Это позволяет отслеживать, не отличаются ли по эмоциональному окрасу разные части одного текста. Если взглянуть на такую динамику, сразу становится понятно, не похож ли данный разговор на ­какое-то клише. Скажем, если в первых частях предложения появляется большое количество негативных слов, а в последующих частях преобладают позитивно-­нейтральные слова, можно данный текст отнести к клише ситуации «введение в панику».
В качестве первичной оценки используется модуль Dostoevsky. Изучаемый текст делится на десять частей. Каждая отдельная часть изучается в цикле методом модуля Dostoevsky. Результаты исследования всех десяти частей объединяются в таблицу, которая служит обучающим сетом данных для новой модели, использующей уже знакомый нам метод k-соседей. Перед обработкой данные стандартизируются. После исследования была получена модель, способная находить явно отличительные клише динамики разговора. Количество частей, на которые разделен текст, следует выбирать исходя из объема обучающего датасета. Учитывая текущие выборки и потенциальные количества текстов, была выбрана оптимальная цифра n=10. Обработанный разговор имеет подобный вид [0, 1,0, 1, 0, 0, 0, 3, 3, 2] где каждое число обозначает число появления негативных слов в частях разговора.

Таблица 1. Матрица ошибок

В качестве вторичной оценки, текущий текст анализируется на предмет динамики появления негативных слов, а после данная динамика сравнивается обученной моделью с результатами обучающего датасета. В качестве основы модели используется уже столь полюбившийся метод обучения k-соседей. Выбран он был отнюдь не из-за дефицита фантазии. Когда данные о динамики появления негативных слов собираются в единую таблицу, можно однозначно сказать о стандартизированности, равнозначности изучаемых данных. В нашем же случае все данные имеют одно и то же логическое значение – количество равновесных ошибок. При условиях стандартизированности данных метод k-соседей показывает одни из наиболее эффективных результатов.
Средняя точность данного модуля сильно уступает, в среднем она составляет порядка 65–70 %. Тем не менее, не стоит забывать, что данный метод весьма узкоспециализирован, но в своей нише может быть крайне эффективен. Большая часть телефонных мошенников – не сильно оригинальные люди, следующие часто используемым клише. При наличии достаточно большого количества данных не составляет труда выделить наиболее популярные сценарии и распознать их в изучаемом тексте.

Выводы

В данной работе авторами был предложен метод выявления телефонных мошенников на основе анализа содержания телефонного разговора. В этой статье мы описываем, как машинное обучение может применяться для обнаружения и предотвращения телефонного мошенничества. Мы используем алгоритмы машинного обучения для анализа данных и выбора высококачественных описаний из данных, собранных ранее, для построения наборов данных. Итоговая классификация диалогов осуществляется с помощью метода k-ближайших соседей, которая объединяет результаты двух модулей с выявлением подозрительных словосочетаний в диалоге. Точность данного метода составила порядка 92 %. Подробно проанализированы характеристики текста мошеннического разговора и обнаружены критерии, по которым можно эффективно отличить мошеннические разговоры. Используемый модуль может найти весьма широкое распространение в аналитике разговоров. Проанализировав работу модулей, можем сказать, что результаты схожи, несмотря на то что второй модуль уступает первому. Стоит заметить, что в данном примере количество верных результатов уступает, что весьма логично – у банковских представителей нет клише, основанных на негативных словах. Собственно говоря, и негативных слов у них тоже не может быть. Если такие попадаются в разговоре официальных представителей – это погрешность или ошибка модели. Тем не менее, это не критично, потому что даже при наличии таких негативных выражений, решать будет все равно их количество, которое зачастую несоразмерно больше в аферистских разговорах. Высокая точность позволяет утверждать о широкой практической значимости научного исследования, поскольку такая система может применяться в самых разнообразных сервисах.

Оператор по обслуживанию клиентов
Источник: Goodluz / depositphotos.com

Статья подготовлена в рамках государственного задания Правительства Российской Федерации Финансовому университету на 2022 г. по теме «Модели и методы распознавания текстов в системах противодействия телефонному мошенничеству» (ВТК-ГЗ-ПИ‑30-2022).