Данные в DLP-системе: кладезь информации для руководителя

Сергей Рябов, 01/03/21

DLP-системы (Data Leakage Prevention) давно используются не только для защиты от утечек данных. Экспансивное развитие технологий сменилось интенсивным: DLP-системы начали расти вглубь, улучшая качество перехвата и анализа контента, благодаря этому данные из DLP становятся бесценными для принятия управленческих решений.

Автор: Сергей Рябов, руководитель группы научно-исследовательской разработки ГК InfoWatch

Это позволяет превратить информационную безопасность в сервис для других подразделений компании, от HR до экономической безопасности.

Первая задача, которую призван решить анализ данных в DLP, – это предотвращение утечек. Без технологий анализа, конечно, утечки тоже можно предотвращать, но для этого придется применять слишком много административных мер и, по сути, всем все запретить. Но в достаточно большой компании такой подход может навредить бизнес-процессам. Мы этого не хотим! Поэтому данные следует блокировать избирательно, а какие именно и для какого именно пользователя, помогают выяснить технологии анализа.

Вторая задача – разметка перехваченного архива. Архив перехвата без разметки – это большая куча данных, работать с которой можно только с помощью полнотекстового поиска, да и он не всегда помогает.

Например, у вас есть номер кредитной карты из 16 цифр, но в переписке он может быть записан в разных форматах, и полнотекстовым поиском в архиве перехвата найти его практически невозможно. Но тут на помощь приходит нормальная форма: в Traffic Monitor введен текстовый объект "кредитная карта", который отлавливает кредитки, выделяет нормальную форму, снимая любое форматирование, и сохраняет ее в базе данных с привязкой к перехваченному объекту.

Еще одно применение разметки архива событий – анализ цепочек событий. На основе такого анализа появляются продукты класса UBA (User Behavior Analytics), например InfoWatch Prediction. Они анализируют поведение пользователя через анализ набора генерируемых пользователем событий в информационной среде. Хорошо размеченные события могут сигнализировать как о нарушении политик безопасности, так и о рядовых ситуациях. Например, события отправки резюме по почте, посещения сайта поиска работы или сайта оценки работодателей система выстраивает в цепочку и помогает определить, насколько высока вероятность увольнения работника.

А может быть, кто-то из сотрудников аффилирован с компанией-подрядчиком? InfoWatch Prediction умеет выявлять и такие риски. Можно искать аномалии в поведении, такие как аномально большое количество скопированных файлов, говорящее о накоплении информации для будущего слива. Можно отслеживать цепочки событий, применять Machine Learning и прогнозировать риски, можно искать сбои и узкие места в бизнес-процессах и вовремя корректировать их с пользой для организации – InfoWatch Prediction сейчас развивается в этом направлении.

Примитивы данных

Есть очень много способов представления данных. Архивы, например, помогают сэкономить место для хранения информации и время ее передачи. Офисные форматы хранят текст, изображения, разметку текста и другую метаинформацию в одном файле. Однако быстро к этой информации получить доступ затруднительно, ведь нужно знать формат хранения данных, а ИБ – это область быстрого реагирования. Поэтому в DLPсистеме существует богатый набор так называемых экстракторов, их задача – получить примитивы информации из всех используемых в организации форматов (текст, изображения, векторная графика и др.).

Разумеется, текст – самый простой и удобный для анализа примитив информации. DLP-системы даже изображения стараются привести к текстовому представлению с помощью технологии OCR (Optical Character Recognition). С изображениями работают современные методы Computer Vision, в том числе нейронные сети, которые уже могут многое рассказать об изображении. Надеемся, в обозримом будущем технологии разовьются до такой степени, что позволят получать полнотекстовое описание изображения, такие наработки есть уже сейчас. Не так давно из разряда бинарных в отдельный примитив информации перешли векторные изображения, так как мы научились их анализировать как структурированные данные.

Анализ данных

Анализировать данные можно в трех направлениях: смысловом, формальном и содержательном.

Для смыслового поиска информации обычно используется классификатор. Данный подход позволяет извлечь в случае утечки из перехваченной информации тематику, не имея точного образца для поиска.
При формальном анализе систему в первую очередь интересует то, как информация оформлена, и уже во вторую – чем она является. Яркий пример такого анализа – регулярные выражения.
Содержательные виды анализа занимаются поиском по образцу. Для их работы необходимо иметь эталон или несколько эталонов, с которыми и сравнивается анализируемая информация.

Классификация данных

Классификация может быть применена к данным с признаками, по которым мы можем определять некие группы или тематики данных. Довольно долго классификация не применялась к изображениям, но Computer Vision и увеличение вычислительных мощностей позволили классифицировать и этот вид данных. Вообще основной критерий при создании технологий – максимум качества за минимальное время. При анализе данных "на лету" важно делать это быстро, иначе ИБ-специалист узнает о нарушении слишком поздно. DLP-система перехватывает миллионы событий ежедневно, и задержки при анализе такого огромного количества перехваченных объектов могут быть критичны для бизнеса.

В нашей практике был случай, когда в ходе пилотного внедрения DLP прямо на одной из встреч специалист по безопасности получил уведомление об утечке критичных данных и буквально сорвался с места, чтобы заняться этим инцидентом.

Для работы классификатора необходима размеченная обучающая коллекция, то есть каждый документ в ней должен быть отнесен к одному из представленных классов. Самая простая аналогия – директории с документами на жестком диске. Далее из представленных документов выделяются признаки (ключевые точки для изображений и термины для текстов), которые отправляются в математическое ядро с привязкой к категориям, а оно обучается на их основе. После того как классификатор обучен, в него можно подавать документы.

Процесс анализа схож с обучением: из перехваченного документа извлекаются признаки и подаются в математическое ядро для классификации, в результате работы вычисляется факт принадлежности анализируемых данных к одной или нескольким категориям. Заранее настроить классификатор для любой компании чаще всего не представляется возможным, ведь работающие на одном рынке компании могут использовать различные наборы терминов для одной и той же тематической области. Поэтому при установке DLP производится тонкая настройка классификаторов для повышения качества их работы. В процессе эксплуатации также потребуется донастройка классификаторов, так как со временем меняются категории или их признаки.

Кроме изображений, мы классифицируем и тексты. Для классификации текстов можно использовать много подходов из машинного обучения, InfoWatch использует два: косинусную меру (так называемую БКФ – базу контентной фильтрации) и логистическую регрессию.

Для текста признаками являются слова. Слова практически в любом языке имеют формы, при этом конечный смысл текста, в котором эти формы используются, меняется не радикально. Поэтому в наших классификаторах используются морфологические словари для нескольких языков (сейчас их 18), приводя все слова к нормальной форме, что помогает повысить качество классификации. В языках, для которых пока нет словарей, классификаторы работают на точное совпадение. Для повышения точности используется технология исправления опечаток, которая сравнивает слова с известными терминами и может исправить одну опечатку.

Копирайтный анализ

Копирайтный анализ можно представить как поиск фрагментов эталонов в анализируемых данных, в InfoWatch Traffic Monitor реализовано несколько видов такого анализа. Все они работают по схожему принципу: в систему загружаются эталонные документы, затем каждый перехваченный кусок информации сравнивается с эталоном. Каждый вид копирайтного анализа решает свою задачу и обычно работает только с одним примитивом данных. При этом эталонных данных может быть много, в нашей практике заказчики загружали в качестве эталонов до 90 тыс. документов. Выделяются несколько видов копирайтного анализа.

Классический копирайтный анализ в качестве эталонов принимает текст, так или иначе извлеченный из разных форматов, и анализирует только текстовые примитивы. В результате DLP-система видит релевантность, то есть сколько процентов эталона содержит анализируемый документ, и разметку этих кусков, позволяя подсветить их в интерфейсе пользователя.
Копирайтный анализ для бинарных данных работает по тем же принципам, но возвращает только релевантность. Поскольку возможности данной технологии все же ограниченны, мы решили пойти дальше в их развитии.
Для растровых графических данных тоже существует копирайтный анализ, но здесь крайне важен баланс между скоростью и функциональными возможностями. В итоге у нас получилось реализовать алгоритм, сравнимый по скорости с текстовым копирайтным анализом (получилось избавиться от зависимости скорости анализа от количества эталонных изображений, что для компьютерного зрения редкость), не зависящий от формата и разрешения изображения, но зависящий от ориентации. Однако мы не могли детектировать, например, повернутое на 90 град. изображение. Но из этой ситуации нашелся выход: так как число эталонов не ограничено, то в качестве эталонов добавляются все варианты поворота изображения.
Копирайтный анализ для векторных изображений выделяет графические примитивы и оценивает их взаимное расположение в эталоне, что позволяет перехватывать в том числе и фрагменты векторных изображений.
Существуют и специализированные виды копирайтного анализа, созданные для решения узких, но очень частых задач заказчиков. В качестве примера можно привести детектор эталонных бланков: его задача – детектировать заполненные анкеты, приняв в качестве эталона пустые бланки, а также читать заполненные поля. Это оказалось незаменимым инструментом для случаев, когда анкетные данные – один из главных цифровых активов бизнеса.
Детектор эталонных печатей позволяет в качестве эталонов задать круглые или треугольные печати и в дальнейшем искать их на сканах или фото формата А4.
Поиск картинки в картинке, часто применяемый как детектор кредитных карт. Детектор пытается найти эталонное изображение в анализируемых данных или более узко – поиск логотипов платежных систем. В InfoWatch Traffic Monitor эта технология представлена графическим объектом "кредитная карта". В широкое применение эту технологию мы пока не выпускаем, поскольку скорость ее работы сильно зависит от количества эталонов, в то время как скорость работы других детекторов практически не деградирует с ростом количества эталонных документов.

Заключение

DLP – это сложные системы с широкими возможностями, и успешность их эксплуатации во многом зависит от того, насколько грамотно вендор произвел тонкие настройки у заказчика. Рынку DLP-решений уже около двадцати лет, он считается сформированным, но иногда можно услышать мнение, что сфера DLP зашла в тупик. Но это далеко не так!

Реальные нарушения, критичные для непрерывности бизнеса и поддержания его эффективности, как правило, находятся на периферии бизнес-процессов. Задачи заказчиков постоянно эволюционируют, меняются каналы передачи, тематики, документы и данные, которые нужно защищать. Чего стоил один только массовый переход на удаленку в этом году, приведший к необходимости обеспечивать кибербезопасность и защиту от утечек в новых условиях!

За последние годы технологии анализа в DLP сделали большой шаг вперед. Теперь можно анализировать взаимодействие с партнерами или конкурентами, строить графы связей, выявлять подозрительные паттерны, определять группы неформальных лидеров, вовремя и грамотно реагировать на риски и многое другое. Из этих технологий вырастают новые применения DLP-систем, которые позволяют решать широкий спектр бизнес-задач, выходящих далеко за пределы информационной безопасности. Подробнее о технологиях анализа и бизнес-задачах, которые не относятся напрямую к ИБ, но решаются с помощью DLP, мы рассказывали на вебинаре "Ваши данные глазами DLP"¹.