Контакты
Подписка 2024

Данные в DLP-системе: кладезь информации для руководителя

Сергей Рябов, 01/03/21

DLP-системы (Data Leakage Prevention) давно используются не только для защиты от утечек данных. Экспансивное развитие технологий сменилось интенсивным: DLP-системы начали расти вглубь, улучшая качество перехвата и анализа контента, благодаря этому данные из DLP становятся бесценными для принятия управленческих решений.

Автор: Сергей Рябов, руководитель группы научно-исследовательской разработки ГК InfoWatch

Это позволяет превратить информационную безопасность в сервис для других подразделений компании, от HR до экономической безопасности.

Первая задача, которую призван решить анализ данных в DLP, – это предотвращение утечек. Без технологий анализа, конечно, утечки тоже можно предотвращать, но для этого придется применять слишком много административных мер и, по сути, всем все запретить. Но в достаточно большой компании такой подход может навредить бизнес-процессам. Мы этого не хотим! Поэтому данные следует блокировать избирательно, а какие именно и для какого именно пользователя, помогают выяснить технологии анализа.

Вторая задача – разметка перехваченного архива. Архив перехвата без разметки – это большая куча данных, работать с которой можно только с помощью полнотекстового поиска, да и он не всегда помогает.

Например, у вас есть номер кредитной карты из 16 цифр, но в переписке он может быть записан в разных форматах, и полнотекстовым поиском в архиве перехвата найти его практически невозможно. Но тут на помощь приходит нормальная форма: в Traffic Monitor введен текстовый объект "кредитная карта", который отлавливает кредитки, выделяет нормальную форму, снимая любое форматирование, и сохраняет ее в базе данных с привязкой к перехваченному объекту.

Еще одно применение разметки архива событий – анализ цепочек событий. На основе такого анализа появляются продукты класса UBA (User Behavior Analytics), например InfoWatch Prediction. Они анализируют поведение пользователя через анализ набора генерируемых пользователем событий в информационной среде. Хорошо размеченные события могут сигнализировать как о нарушении политик безопасности, так и о рядовых ситуациях. Например, события отправки резюме по почте, посещения сайта поиска работы или сайта оценки работодателей система выстраивает в цепочку и помогает определить, насколько высока вероятность увольнения работника.

А может быть, кто-то из сотрудников аффилирован с компанией-подрядчиком? InfoWatch Prediction умеет выявлять и такие риски. Можно искать аномалии в поведении, такие как аномально большое количество скопированных файлов, говорящее о накоплении информации для будущего слива. Можно отслеживать цепочки событий, применять Machine Learning и прогнозировать риски, можно искать сбои и узкие места в бизнес-процессах и вовремя корректировать их с пользой для организации – InfoWatch Prediction сейчас развивается в этом направлении.

Примитивы данных

Есть очень много способов представления данных. Архивы, например, помогают сэкономить место для хранения информации и время ее передачи. Офисные форматы хранят текст, изображения, разметку текста и другую метаинформацию в одном файле. Однако быстро к этой информации получить доступ затруднительно, ведь нужно знать формат хранения данных, а ИБ – это область быстрого реагирования. Поэтому в DLPсистеме существует богатый набор так называемых экстракторов, их задача – получить примитивы информации из всех используемых в организации форматов (текст, изображения, векторная графика и др.).

Разумеется, текст – самый простой и удобный для анализа примитив информации. DLP-системы даже изображения стараются привести к текстовому представлению с помощью технологии OCR (Optical Character Recognition). С изображениями работают современные методы Computer Vision, в том числе нейронные сети, которые уже могут многое рассказать об изображении. Надеемся, в обозримом будущем технологии разовьются до такой степени, что позволят получать полнотекстовое описание изображения, такие наработки есть уже сейчас. Не так давно из разряда бинарных в отдельный примитив информации перешли векторные изображения, так как мы научились их анализировать как структурированные данные.

Анализ данных

Анализировать данные можно в трех направлениях: смысловом, формальном и содержательном.

  1. Для смыслового поиска информации обычно используется классификатор. Данный подход позволяет извлечь в случае утечки из перехваченной информации тематику, не имея точного образца для поиска.
  2. При формальном анализе систему в первую очередь интересует то, как информация оформлена, и уже во вторую – чем она является. Яркий пример такого анализа – регулярные выражения.
  3. Содержательные виды анализа занимаются поиском по образцу. Для их работы необходимо иметь эталон или несколько эталонов, с которыми и сравнивается анализируемая информация.

Классификация данных

Классификация может быть применена к данным с признаками, по которым мы можем определять некие группы или тематики данных. Довольно долго классификация не применялась к изображениям, но Computer Vision и увеличение вычислительных мощностей позволили классифицировать и этот вид данных. Вообще основной критерий при создании технологий – максимум качества за минимальное время. При анализе данных "на лету" важно делать это быстро, иначе ИБ-специалист узнает о нарушении слишком поздно. DLP-система перехватывает миллионы событий ежедневно, и задержки при анализе такого огромного количества перехваченных объектов могут быть критичны для бизнеса.

В нашей практике был случай, когда в ходе пилотного внедрения DLP прямо на одной из встреч специалист по безопасности получил уведомление об утечке критичных данных и буквально сорвался с места, чтобы заняться этим инцидентом.

Для работы классификатора необходима размеченная обучающая коллекция, то есть каждый документ в ней должен быть отнесен к одному из представленных классов. Самая простая аналогия – директории с документами на жестком диске. Далее из представленных документов выделяются признаки (ключевые точки для изображений и термины для текстов), которые отправляются в математическое ядро с привязкой к категориям, а оно обучается на их основе. После того как классификатор обучен, в него можно подавать документы.

Процесс анализа схож с обучением: из перехваченного документа извлекаются признаки и подаются в математическое ядро для классификации, в результате работы вычисляется факт принадлежности анализируемых данных к одной или нескольким категориям. Заранее настроить классификатор для любой компании чаще всего не представляется возможным, ведь работающие на одном рынке компании могут использовать различные наборы терминов для одной и той же тематической области. Поэтому при установке DLP производится тонкая настройка классификаторов для повышения качества их работы. В процессе эксплуатации также потребуется донастройка классификаторов, так как со временем меняются категории или их признаки.

Кроме изображений, мы классифицируем и тексты. Для классификации текстов можно использовать много подходов из машинного обучения, InfoWatch использует два: косинусную меру (так называемую БКФ – базу контентной фильтрации) и логистическую регрессию.

Для текста признаками являются слова. Слова практически в любом языке имеют формы, при этом конечный смысл текста, в котором эти формы используются, меняется не радикально. Поэтому в наших классификаторах используются морфологические словари для нескольких языков (сейчас их 18), приводя все слова к нормальной форме, что помогает повысить качество классификации. В языках, для которых пока нет словарей, классификаторы работают на точное совпадение. Для повышения точности используется технология исправления опечаток, которая сравнивает слова с известными терминами и может исправить одну опечатку.

Копирайтный анализ

Копирайтный анализ можно представить как поиск фрагментов эталонов в анализируемых данных, в InfoWatch Traffic Monitor реализовано несколько видов такого анализа. Все они работают по схожему принципу: в систему загружаются эталонные документы, затем каждый перехваченный кусок информации сравнивается с эталоном. Каждый вид копирайтного анализа решает свою задачу и обычно работает только с одним примитивом данных. При этом эталонных данных может быть много, в нашей практике заказчики загружали в качестве эталонов до 90 тыс. документов. Выделяются несколько видов копирайтного анализа.

  1.  Классический копирайтный анализ в качестве эталонов принимает текст, так или иначе извлеченный из разных форматов, и анализирует только текстовые примитивы. В результате DLP-система видит релевантность, то есть сколько процентов эталона содержит анализируемый документ, и разметку этих кусков, позволяя подсветить их в интерфейсе пользователя.
  2. Копирайтный анализ для бинарных данных работает по тем же принципам, но возвращает только релевантность. Поскольку возможности данной технологии все же ограниченны, мы решили пойти дальше в их развитии.
  3. Для растровых графических данных тоже существует копирайтный анализ, но здесь крайне важен баланс между скоростью и функциональными возможностями. В итоге у нас получилось реализовать алгоритм, сравнимый по скорости с текстовым копирайтным анализом (получилось избавиться от зависимости скорости анализа от количества эталонных изображений, что для компьютерного зрения редкость), не зависящий от формата и разрешения изображения, но зависящий от ориентации. Однако мы не могли детектировать, например, повернутое на 90 град. изображение. Но из этой ситуации нашелся выход: так как число эталонов не ограничено, то в качестве эталонов добавляются все варианты поворота изображения.
  4. Копирайтный анализ для векторных изображений выделяет графические примитивы и оценивает их взаимное расположение в эталоне, что позволяет перехватывать в том числе и фрагменты векторных изображений.
  5. Существуют и специализированные виды копирайтного анализа, созданные для решения узких, но очень частых задач заказчиков. В качестве примера можно привести детектор эталонных бланков: его задача – детектировать заполненные анкеты, приняв в качестве эталона пустые бланки, а также читать заполненные поля. Это оказалось незаменимым инструментом для случаев, когда анкетные данные – один из главных цифровых активов бизнеса.
  6. Детектор эталонных печатей позволяет в качестве эталонов задать круглые или треугольные печати и в дальнейшем искать их на сканах или фото формата А4.
  7. Поиск картинки в картинке, часто применяемый как детектор кредитных карт. Детектор пытается найти эталонное изображение в анализируемых данных или более узко – поиск логотипов платежных систем. В InfoWatch Traffic Monitor эта технология представлена графическим объектом "кредитная карта". В широкое применение эту технологию мы пока не выпускаем, поскольку скорость ее работы сильно зависит от количества эталонов, в то время как скорость работы других детекторов практически не деградирует с ростом количества эталонных документов.

Заключение

DLP – это сложные системы с широкими возможностями, и успешность их эксплуатации во многом зависит от того, насколько грамотно вендор произвел тонкие настройки у заказчика. Рынку DLP-решений уже около двадцати лет, он считается сформированным, но иногда можно услышать мнение, что сфера DLP зашла в тупик. Но это далеко не так!

Реальные нарушения, критичные для непрерывности бизнеса и поддержания его эффективности, как правило, находятся на периферии бизнес-процессов. Задачи заказчиков постоянно эволюционируют, меняются каналы передачи, тематики, документы и данные, которые нужно защищать. Чего стоил один только массовый переход на удаленку в этом году, приведший к необходимости обеспечивать кибербезопасность и защиту от утечек в новых условиях!

За последние годы технологии анализа в DLP сделали большой шаг вперед. Теперь можно анализировать взаимодействие с партнерами или конкурентами, строить графы связей, выявлять подозрительные паттерны, определять группы неформальных лидеров, вовремя и грамотно реагировать на риски и многое другое. Из этих технологий вырастают новые применения DLP-систем, которые позволяют решать широкий спектр бизнес-задач, выходящих далеко за пределы информационной безопасности. Подробнее о технологиях анализа и бизнес-задачах, которые не относятся напрямую к ИБ, но решаются с помощью DLP, мы рассказывали на вебинаре "Ваши данные глазами DLP"1.


  1. https://www.infowatch.ru/resources/webinar/03-12-2020/?utm_source=itsec 
Темы:DLPHRУправлениеЖурнал "Информационная безопасность" №6, 2020

Обеспечение кибербезопасности.
Защита АСУ ТП. Безопасность КИИ
Конференция | 28 июня 2024

Жми для участия
Обзоры. Спец.проекты. Исследования
Участвуйте в обзорах / исследованиях проекта "Информационная безопасность"!
Станьте автором журнала!
Статьи по той же темеСтатьи по той же теме

  • От черного ящика к прозрачности: что CEO должен знать об ИБ
     Евгений Сурков, менеджер продуктов компании Innostage
    Почему CEO и высшему руководству иногда сложно понять ИБ-вызовы, какие проблемы несет отсутствие единой методологии и где найти баланс между открытостью и безопасностью?
  • DLP для эффективной работы с рисками информационной и кадровой безопасности
    Константин Саматов, Член Правления Ассоциации руководителей службы информационной безопасности
    Нерациональное поведение и ошибки людей – основные слабые стороны, выявляемые в инцидентах безопасности, создающие репутационные риски и являющиеся причинами высоких затрат. Как в решении данной проблемы может помочь DLP?
  • О физиках, лириках и флешках
    Светлана Конявская, заместитель генерального директора ОКБ САПР
    Техническая задача защиты флешки сводится к тому, чтобы сделать нелегальное физическое обладание ею бессмысленным. Эта задача решена в защищенной флешке “Секрет Особого Назначения”. Коротко рассмотрим, как.
  • Next Generation DLP. Поспорим о терминах
    Владимир Ульянов, руководитель аналитического центра Zecurion
    Совместное использования DLP и DCAP - это и есть идея DLP следующего поколения: соединить части, которые были искусственно разделены для обеспечения безопасности данных.
  • Атакующий дебют: разбор неразмеченных событий в DLP
    ИИ, машинное обучение и когнитивные технологии для автоматизации работы с большими данными – это не хайп, а реальный инструмент для анализа и классификации большого объема информации, выявления непостижимых для человеческого мозга связей и закономерностей.
  • DLP: маловато будет. Защита персональных данных на протяжении всего жизненного цикла
    Рустэм Хайретдинов, заместитель генерального директора группы компаний “Гарда”
    При защите персональных данных самые мощные аналитические инструменты DLP-систем – контентный анализ и "цифровые отпечатки" недостаточно эффективны.

Хотите участвовать?

Выберите вариант!

КАЛЕНДАРЬ МЕРОПРИЯТИЙ 2024
ПОСЕТИТЬ МЕРОПРИЯТИЯ
ВЫСТУПИТЬ НА КОНФЕРЕНЦИЯХ
СТАТЬ АВТОРОМ
Linux
23 мая. Инструменты миграции на защищенный Linux
Участвуйте!

More...
Обзоры. Исследования. Спец.проекты
Обзоры и исследования проекта "Информационная безопасность"
Жми, чтобы участвовать